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序言 


关于 分 布 式 系统 的 知识 ， 可 以 从 大 学 教科 书 上 找到 ， 许 多 人 还 知道 
Andrew S.Tanenbaum 等 人 在 2002 年 出 版 的 “分 布 式 系统 原理 与 范 

型 ”(Distributed Systems: Principles and Paradigms) 这 本 书 。 其 实 分 布 
式 系统 的 理论 出 现 于 上 个 世纪 70 年 代 , “Symposium on Principles of 
Distributed Computing (PODC) ”和 “International Symposium on 
Distributed Computing (DISC) ”这 两 个 分 布 式 领域 的 学 术 会 议 分 别 创 
立 于 1982 年 和 1985 年 。 然 而 ， 分 布 式 系统 的 广泛 应 用 却 是 最 近 十 多 年 
的 事情 ， 其 中 的 一 个 原因 就 是 人 类 活动 创造 出 的 数据 量 远 远 超出 了 单 
个 计算 机 的 存储 和 处 理 能 力 。 比 如 ，2008 年 全 球 互联 网 的 网 页 超过 了 1 
万 亿 ， 按 平均 单个 网 页 1OKB 计 算 ， 就 是 10OPB; 又 如 ， 一 个 2 亿 用 户 的 
电信 运营 商 ， 如 有 果 平 均 每 个 用 户 每 天 拨打 接听 总 共 10 个 电话 ， 每 个 电 
话 400 字 市 ，5 年 的 话费 记录 总 量 即 为 0.2Gx10x0.4Kx365x5=1.46PB。 除 
了 分 布 式 系统 ， 人 们 还 很 难 有 其 他 高 效 的 手段 来 存储 和 处 理 这 些 PB 级 
甚至 更 多 的 数据 。 另 外 一 个 原因 ， 其 实 是 一 个 可 悲 的 事实 ， 那 束 是 分 
布 式 环 境 下 的 编程 十 分 困难 。 


与 单机 环境 下 的 编程 相 比 ， 分 布 式 环境 下 的 编程 有 两 个 明显 的 不 同 : 
首先 ， 分 布 式 环境 下 会 出 现 一 部 分 计算 机 工作 正常 ， 另 一 部 分 计算 机 
工作 不 正常 的 情况 ， 程 序 需要 在 这 种 情况 下 尽 可 能 地 正常 工作 ， 这 个 
挑战 非常 大 。 其 次 ， 单 机 环境 下 的 函数 调用 常常 可 以 在 微 秒 级 内 返 
回 ， 所 以 除了 少数 访问 外 部 设备 (例如 磁盘 、 网 卡 等 ， 的 函数 采用 异 
步 方式 调用 外 ， 大 部 分 函数 采用 同步 调用 的 方式 ， 编 译 器 和 操作 系统 
在 调用 前 后 自动 保存 与 恢复 程序 的 上 下 文 ; 在 分 布 式 环境 下 ， 计 算 机 
之 间 的 函数 调用 〈 远 程 调用 ， 即 RPC) 的 返回 时 间 通 常 是 毫秒 或 亚 训 
秒 《0.1~1.0 毫 秒 ) 级 ， 差 不 多 是 单机 环境 的 100 倍 ， 使 用 同步 方式 远 
远 不 能 发 挥 现代 CPU 处 理 句 的 性 能 ， 所 以 分 布 式 环境 下 的 RPC 通 常 采 用 
异步 调用 方式 ， 程 序 需 要 自己 保存 和 恢复 调用 前 后 的 上 下 文 ， 并 需要 
处 理 更 多 的 异常 。 


基于 上 述 原 因 ， 很 多 从 事 分 布 式 系统 相关 的 开发 、 测 试 、 维 护 的 朋友 
十 分 渴望 了 解 和 学 习 其 他 分 布 式 系统 的 实践 ， 可 是 ， 这 些 信息 分 散在 
浩瀚 的 知识 海洋 中 ， 获 取 感 兴趣 的 内 容 相 当 困难 。 因 此 ， 传 辉 的 “大 规 
模 分 布 式 存储 系统 ”一 书 出 现 得 恰 如 其 时 ， 这 是 我 见 过 的 讲解 分 布 式 系 
统 实践 最 全 面 的 一 本 书 。 它 不 仅 介绍 了 当前 业界 最 币 见 的 分 布 式 系 

统 ， 还 结合 了 作者 目 己 六 年 多 来 的 分 布 式 系统 开发 实践 。 虽 然 这 本 书 
没有 、 也 不 可 能 包含 分 布 式 系统 实践 的 所 有 内 容 ， 但 阅读 这 本 书 的 人 
一 定 会 深 受 局 发 ， 并 且 还 能 够 知道 去 何 处 获取 更 深层 次 的 信息 和 知 


识 。 


阳 振 坤 
阿里 巴巴 高 级 研究 员 ， 基 础 数据 部 负责 人 
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随 着 社交 网 络 、 移 动 互联 网 、 电 子 商务 等 技术 的 不 断 发 展 ， 互 联网 的 
使 用 者 贡献 了 越 来 越 多 的 内 容 。 为 了 处 理 这 些 内 容 ， 每 个 互联 网 公司 
在 后 端 都 有 一 套 成 熟 的 分 布 式 系统 用 于 数据 的 存储 、 计 算 以 及 价值 提 
取 。Google 是 全 球 最 大 的 互联 网 公司 ， 也 是 在 分 布 式 技术 上 相对 成 熟 
的 公司 ， 其 公布 的 Google 分 布 式 文件 系统 GFS、 分 布 式 计 算 系统 
MapReduce、 分 布 式 表格 系统 Bigtable 都 成 为 业界 竞相 模仿 的 对 象 ， 最 
近 公布 的 全 球 数据 库 Spanner 更 是 能 够 支持 分 布 在 世界 各 地 上 百 个 数据 
中 心 的 上 百 万 台 服 务 器 。Google 的 核心 技术 正 是 后 端 这 些 处 理 海量 数 
据 的 分 布 式 系统 。 和 Google 类 似 ， 国 外 的 亚马逊 、 微 软 以 及 国内 互联 
网 三 巨头 阿里 巴巴 、 百 度 和 腾讯 的 核心 技术 也 是 其 后 端的 海量 数据 处 
理 系统 。 


本 书 的 内 容 是 介绍 互联 网 公司 的 大 规模 分 布 式 存储 系统 。 与 传统 的 高 
端 服务 器 、 高端 存 储 右 和 高 端 处 理 器 不 同 的 是 ， 互 联网 公司 的 分 布 式 
存储 系统 由 数量 众多 的 、 低 成 本 和 高 性 价 比 的 普通 PC 服务 器 通过 网 络 
连接 而 成 。 互 联网 的 业务 发 展 很 快 ， 而 且 注重 成 本 ， 这 束 使 得 存储 系 
统 不 能 依靠 传统 的 纵向 扩展 的 方式 ， 即 先 买 小 型 机 ， 不 够 时 再 买 中 型 
机 ， 甚 至 大 型 机 。 互 联网 后 并 的 分 布 式 系 统 要 求 文 持 模 同 扩 展 ， 即 通 
过 增加 普通 PC 服务 器 来 提高 系统 的 整体 处 理 能 力 。 普 通 PC 服 务 右 性 价 
比 高 ， 故 障 率 也 高 ， 需 要 在 软件 层面 实现 目 动容 错 ， 保 证 数据 的 一 至 
性 。 另 外 ， 随 着 服务 器 的 不 断 加 入 ， 需 要 能 够 在 软件 层面 实现 目 动 负 
载 均衡 ， 使 得 系统 的 处 理 能 力 得 到 线性 扩展 。 


分 布 式 存储 和 当今 同样 备 受 关注 的 云 存储 和 大 数据 又 是 什么 关系 呢 ? 
分 布 式 存储 是 基础 ， 云 存储 和 大 数据 是 构建 在 分 布 式 存储 之 上 的 应 
用 。 移 动 终端 的 计算 能 力 和 存储 空间 有 限 ， 而 且 有 在 多 个 设备 之 间 共 
享 货源 的 强烈 的 需求 ， 这 就 使 得 网 盘 、 相 册 等 云 存 储 应 用 很 快 流行 起 
来 。 然 而 ， 万 变 不 离 其 哇 ， 云 存储 的 核心 还 是 后 端的 大 规模 分 布 式 存 
储 系统 。 大 数据 则 更 近 一 步 ， 不 仅 需要 人 存储 海量 数据 ， 还 需要 通过 合 
适 的 计算 框架 或 者 工具 对 这 些 数据 进行 分 析 ， 抽 取 其 中 有 价值 的 部 
分 。 如 有 果 没 有 分 布 式 存储 ， 便 谈 不 上 对 大 数据 进行 分 析 。 仔 细 分 析 还 
会 发 现 ， 分 布 式 存储 技术 是 互联 网 后 端 染 构 的 “ 九 阳 神 功 "， 掌 握 了 这 
项 技能 ， 以 后 理解 其 他 技术 的 本 质 会 变 得 非常 容易 。 


分 布 式 存储 技术 如 此 重要 ， 市 面 上 也 有 很 多 分 布 式 系统 相关 的 书籍 。 
然而 ， 这 些 书籍 往往 注重 理论 不 重 实践 ， 且 所 述 理论 也 不 太 适 合 互联 
网 公司 的 大 规模 存储 系统 。 这 是 因为 ， 虽 然 分 布 式 系统 研究 了 很 多 
年 ， 但 是 大 规模 分 布 式 存储 系统 是 在 近 几 年 才 流 行 起 来 ， 而 且 起 源 于 
以 Google 为 首 的 企业 界 而 非 学 术 界 。 笔 者 2007 年 年 底 加 入 百度 公司 ， 
师 从 阳 振 坤 老师 ， 从 事 大 规模 分 布 式 存储 的 研究 和 实践 工作 ， 曾 经 开 
发 过 类 似 GFS、MapReduce 和 Bigtable 的 分 布 式 系统 ， 后 来 转战 阿里 巴 
巴 继续 开发 分 布 式 数据 库 OceanBase， 维 护 分 布 式 技术 博客 NosqlNotes 
(http://www.nosqlnotes.net) 。 笔 者 在 业余 时 间 阅 读 并 理解 了 绝 大 部 分 
分 布 式 系统 原理 和 各 大 互联 网 公司 的 系统 范 型 相关 论文 ， 深 知 分 布 式 
存储 系统 的 复杂 性 ， 也 能 够 体会 到 广大 读者 渴望 弄 清 楚 分 布 式 存储 技 
术 本 质 和 实现 细 市 的 迫切 心情 ， 因 而 集中 精力 编写 了 这 本 书 ， 希 望 对 
从 事 分 布 式 存储 应 用 的 技术 人 员 有 所 神 益 。 


本 书 的 目标 是 介绍 互联 网 公司 的 大 规模 分 布 式 存储 系统 ， 共 分 为 四 
篇 : 


e 基 础 篇 。 基 础 知识 包含 两 个 部 分 : 单机 存储 系统 以 及 分 布 式 系统 。 其 
中 ， 单 机 存储 系统 的 理论 基础 古 数据 库 搁 术 ， 包 括 数据 模型 、 事 务 与 
并 发 控制 、 故 障 恢 复 、 存 储 引 敬 、 数 据 压缩 等 ， 分 布 式 系统 涉及 数据 
分 布 、 复 制 、 一 臻 性、 容错 、 可 扩展 性 等 分 布 式 技术 。 男 外 ， 分 布 式 


存储 系统 工程 师 还 需要 一 项 基础 训练 ， 即 性 能 预 估 ， 因 此 ， 基 础 篇 也 
会 顺带 介绍 硬件 基础 知识 以 及 性 能 预 佑 方法 。 


e 范 型 篇 。 这 部 分 内 容 将 介绍 Google、 亚 马 进 、 微 软 、 阿 里 巴巴 等 各 大 
互联 网 公司 的 大 规模 分 布 式 存储 系统 ， 分 为 四 草 : 分 布 式 文件 系统 、 
分 布 式 键 值 系 统 、 分 布 式 表格 系统 以 及 分 布 式 数 据 库 。 


e 实 践 篇 。 这 部 分 内 容 将 以 笔者 在 阿里 巴巴 开发 的 分 布 式 数据 库 
OceanBase 为 例 详 细 介 绍 分 布 式 数据 库 内 部 实现 以 及 实践 过 程 中 的 经 验 


总 结 。 


,一 口 


e 专 题 篇 。 云 存储 和 大 数据 是 近年 来 兴起 的 两 大 热门 领域 ， 其 帮 层 都 依 
赖 分 布 式 存储 技术 ， 这 部 分 将 简单 介绍 这 两 方面 的 基础 知识 。 


计 


书 适合 互联 网 行业 或 者 其 他 从 事 分 布 式 系统 实践 的 工程 人 员 ， 也 适 
学 


合 大 学 高 年 级 本 科 生 和 研究 生 作为 分 布 式 系统 或 者 云 计算 相关 课程 的 
参考 书籍 。 阅 读本 书 之 前 ， 建 议 首 先 理 解 分 布 式 系统 和 数据 库 相 关 基 


础 理论 ， 接 着 阅读 第 一 篇 。 如 果 对 各 个 互联 网 公司 的 系统 架构 感 兴 
趣 ， 可 以 选择 阅读 第 二 篇 的 某 些 章节 ; 如 有 果 对 阿里 巴巴 OceanBase 的 架 
构 设计 和 实现 感 兴趣 ， 可 以 顺序 阅读 第 三 篇 。 最 后 ， 如 有 果 对 云 存储 或 
者 大 数据 感 兴 趣 ， 可 以 选择 阅读 第 四 篇 的 某 个 章 订 。 


感谢 阳 振 坤 老师 多 年 以 来 对 我 在 云 计算 和 分 布 式 数据 库 这 两 个 领域 的 
研究 实践 工作 的 指导 和 或 励 。 感 谢 在 百度 以 及 阿里 巴巴 与 我 共事 多 年 


的 兄弟 姐妹 ， 我 们 患难 与 共 ， 一 起 实现 共同 的 梦想 。 感 谢 机 械 工 业 出 
版 社 的 吴 怡 编辑 、 新 浪 微 博 的 杨 卫 华 先 生 、 百 度 的 侯 震 宇 先 生 以 及 文 
付 宝 的 童 家 旺 先生 在 本 书 撰写 过 程 中 提出 的 宝贵 意见 。 


由 于 分 布 式 存储 技术 涉及 一 些 公司 的 商业 机 密 ， 加 上 笔者 水 平 有 限 、 
时 间 较 紧 ， 所 以 书 中 难免 存在 廖 误 ， 很 多 技术 点 涉及 的 细 克 描述 得 还 
不 够 详尽 ， 尾 请 读者 批评 指正 。 可 将 任何 意见 和 建议 发 送 到 我 的 邮箱 
knuthocean@163.com， 本 书 相 关 的 勘误 和 技术 细 广 说 明 也 会 发 布 到 我 
的 个 人 博客 NosqlNotes。 我 的 新 浪 微 博 账 号 是 “阿里 日 照 "”， 欢 迎 读者 通 
过 邮件 、 博 客 或 者 微 博 与 我 交流 分 布 式 存 储 相 关 的 任何 问题 。 我 也 将 
密切 跟踪 分 布 式 存储 技术 的 发 展 ， 吸 收 您 的 意见 ， 适 时 编写 本 书 的 升 
级 版 本 。 


杨 传 辉 


2013 年 7 月 于 北京 
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本 篇 内 容 
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第 2 章 单机 存储 系统 


3 章 分 布 式 系统 


第 1 章 概述 


避 


Google、Amazon、Alibaba 等 互联 网 公司 的 成 功 催生 了 云 计算 和 大 数据 
两 大 热门 领域 。 无 论 是 云 计算 、 大 数据 还 是 互联 网 公司 的 各 种 应 用 ， 
其 后 台 基 础 设施 的 主要 目标 都 是 构建 低 成 本 、 高 性 能 、 可 扩展 、 易 用 
的 分 布 式 存储 系统 。 


虽然 分 布 式 系统 研究 了 很 多 年 ， 但 是 ， 直 到 近年 来 ， 互 联网 大 数据 应 
用 的 兴起 才 使 得 它 大 规模 地 应 用 到 工程 实践 中 。 相 比 传统 的 分 布 式 系 
统 ， 互 联网 公司 的 分 布 式 系统 具有 两 个 特点 ， 一 个 特点 是 规模 大 ， 必 
一 个 特点 是 成 本 低 。 不 同 的 需求 造 束 了 不 同 的 设计 方案 ， 可 以 这 人 么 
说 ，Google 等 互联 网 公司 重新 定义 了 大 规模 分 布 式 系统 。 本 章 介绍 大 
规模 分 布 式 系统 的 定义 与 分 类 。 


1.1 分 布 式 存 储 概念 


大 规模 分 布 式 存储 系统 的 定义 如 下 : 


“分 布 式 存储 系统 是 大 量 普通 PC 服务 器 通过 Internet 互 联 ， 对 外 作为 一 个 
整体 提供 存储 服务 。” 


分 布 式 存储 系统 具有 如 下 几 个 特性 : 


。 可 扩展 。 分 布 式 存储 系统 可 以 扩展 到 几 百 台 甚 至 几 千 台 的 集群 规模 
而 且 ， 随 着 集群 规模 的 增长 ， 系 统 整体 性 能 表现 为 线性 增长 。 


e 低 成 本 。 分 布 式 存 储 系统 的 目 动容 铺 、 目 动 负载 均衡 机 制 使 其 可 以 构 
建 在 普通 PC 机 之 上 。 男 外 ， 线 性 扩展 能 力也 使 得 增加 、 减 少 机 器 非常 
方便 ， 可 以 实现 自动 运 维 。 


@ 
可 


性 能 。 无 论 是 针对 整个 集群 还 是 单 台 服务 器， 痢 要 求 分 布 式 存储 系 


e 易 用 。 分 布 式 存储 系统 需要 能 够 提供 易 用 的 对 外 接口 ， 另 外 ， 也 要 求 
具备 完善 的 监控 、 运 维 工具 ， 并 能 够 方便 地 与 其 他 系统 集成 ， 例 如 ， 
从 Hadoop 云 计算 系统 导入 数据 。 


分 布 式 存储 系统 的 挑战 主要 在 于 数据 、 状 态 信 息 的 持久 化 ， 要 求 在 目 
动迁 移 、 目 动容 销 、 并 发 读 写 的 过 程 中 保证 数据 的 一 致 性 。 分 布 式 存 
储 涉及 的 技术 主要 来 目 两 个 领域 : 分 布 式 系统 以 及 数据 库 ， 如 下 所 


未 : 


e 数 据 分 布 : 如 何 将 数据 分 布 到 多 合 服务 夯 才 能 够 剑 证 数据 分 布 均匀 ? 
数据 分 布 到 多 台 服 务 右 后 如 何 实现 跨 服务 器 读 写 操 作 ? 


e 一 致 性 : 如 何 将 数据 的 多 个 副本 复制 到 多 合 服务 右 ， 即 使 在 异 彰 情况 
下 ， 也 能 够 保证 不 同 副本 之 间 的 数据 一 致 性 ? 


se。 容错: 如 何 检测 到 服务 器 故障 ? 如 何 上 自动 将 出 现 故障 的 服务 器 上 的 数 
据 和 服务 迁移 到 集群 中 其 他 服务 郁 ? 


e 负 载 均衡 : 新 增 服务 器 和 集群 正常 运行 过 程 中 如 何 实 现 目 动 负载 均 
衡 ? 数据 迁移 的 过 程 中 如 何 保证 不 影响 已 有 服务 ? 


e 事 务 与 并 发 控制 : 如 何 实现 分 布 式 事务 ? 如 何 实现 多 版 本 并 发 控制 ? 


e 易 用 性 ， 如何 设计 对 外 接口 使 得 系统 容易 使 用 ? 如 何 设计 监控 系统 并 
将 系统 的 内 部 状态 以 方便 的 形式 暴露 给 运 维 人 员 ? 


。 压 缩 /解压 缩 ， 如 何 根据 数据 的 特点 设计 合理 的 压缩 /解压 缩 算法 ? 如 
何平 衡 压 缩 算法 节省 的 存储 空间 和 消耗 的 CPU 计算 资源 ? 


分 布 式 存储 系统 挑战 大 ， 研 发 周期 长 ， 涉 及 的 知识 面 广 。 一 般 来 讲 ， 
工程 师 如 果 能 够 深入 理解 分 布 式 存储 系统 ， 理 解 其 他 互联 网 后 台 架 构 
不 会 再 有 任何 困难 


1.2 分 布 式 存储 分 类 


分 布 式 存储 面临 的 数据 需求 比较 复杂 ， 大 致 可 以 分 为 三 类 : 


e 非 结构 化 数据 : 包括 所 有 格式 的 办 公文 档 、 文 本 、 图 片 、 图 像 、 首 频 


和 视频 信息 等 。 


e 结 构 化 数据 : 一般 存储 在 关系 数据 库 中 ， 可 以 用 二 维 关系 表 结 构 来 表 
示 。 结 构 化 数据 的 模式 《Schema， 包 括 属性 、 数 据 类 型 以 及 数据 之 间 
的 联系 ) 和 内 容 是 分 开 的 ， 数 据 的 模式 需要 预先 定义 。 


e 半 结构 化 数据 ， 介 于 非 结构 化 数据 和 结构 化 数据 之 间 ，HTML 文 档 束 
属于 半 结 构 化 数据 。 它 一 般 是 目 描述 的 ， 与 结构 化 数据 最 大 的 区 别 在 
于 ， 半 结构 化 数据 的 模式 结构 和 内 容 混 在 一 起 ， 没 有 明显 的 区 分 ， 也 
不 需要 预先 定义 数据 的 模式 结构 。 


不 同 的 分 布 式 存储 系统 适合 处 理 不 同类 型 的 数据 ， 本 书 将 分 布 式 存储 
系统 分 为 四 类 : 分 布 式 文件 系统 、 分 布 式 键 值 (Key-Value) 系统 、 分 
布 式 表格 系统 和 分 布 式 数据 库 。 


1. 分 布 式 文件 系统 


互联 网 应 用 需要 存储 大 量 的 图 片 、 照 片 、 视 频 等 非 结 构 化 数据 对 象 ， 
这 类 数据 以 对 象 的 形式 组 织 ， 对 象 之 间 没 有 关联 ， 这 样 的 数据 一 般 称 
为 Blob (Binary Large Object， 二 进 制 大 对 象 ) 数据 。 


分 布 式 文件 系统 用 于 存储 Blob 对 象 ， 典 型 的 系统 有 Facebook Haystack 以 
及 Taobao File System (TFS) 。 另 外 ， 分 布 式 文件 系统 也 常 作为 分 布 式 
表格 系统 以 及 分 布 式 数据 库 的 底层 存储 ， 如 谷歌 的 GFS (Google File 

System， 存 储 大 文件 ) 可 以 作为 分 布 式 表格 系统 Google Bigtable 的 底层 
存储 ，Amazon 的 EBS (Elastic Block Store， 弹 性 块 存储 ) 系统 可 以 作 

为 分 布 式 数据 库 (Amazon RDS) 的 底层 存储 。 


总 体 上 看 ， 分 布 式 文 件 系统 存储 三 种 类 型 的 数据 : Blob 对象 、 定 长 块 
以 及 大 文件 。 在 系统 实现 层面 ， 分 布 式 文件 系统 内 部 按照 数据 块 

(chunk) 来 组 织 数 据 ， 每 个 数据 块 的 大 小 大 致 相同 ， 每 个 数据 块 可 以 
包含 多 个 Blob 对 象 或 者 定 长 块 ， 一 个 大 文件 也 可 以 拆 分 为 多 个 数据 

块 ， 如 图 1-1 所 示 。 分 布 式 文件 系统 将 这 些 数据 块 分 散 到 存储 集群 ， 处 
理 效 据 复 制 、 一 致 性 、 负 载 均衡 、 容 销 等 分 布 式 系统 难题 ， 并 将 用 户 
对 Blob 对 象 、 定 长 块 以 及 大 文件 的 操作 映射 为 对 发 层 数据 块 的 操作 。 
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分 布 式 Blob 存储 分 布 式 块 设备 分 布 式 大 文件 存储 


图 1-1 数据 块 与 Blob 对 象 、 定 长 块 、 大 文件 之 间 的 关系 


2. 分 布 式 键 值 系统 


分 布 式 键 值 系统 用 于 存储 关系 人 简单 的 半 结 构 化 数据 ， 它 只 提供 基于 主 
键 的 CRUD (Create/Read/Update/Delete) 功能 ， 即 根据 主键 创建 、 读 
取 、 更 新 或 者 删除 一 条 键 值 记录 。 


典型 的 系统 有 Amazon Dynamo 以 及 Taobao Tair。 从 数据 结构 的 角度 看 ， 
分 布 式 键 值 系统 与 传统 的 哈 希 表 比 较 类 似 ， 不 同 的 是 ， 分 布 式 键 值 系 
统 文 持 将 数据 分 布 到 集群 中 的 多 个 存储 人 节点。 分布 式 键 值 系 统 是 分 布 
式 表 格 系统 的 一 种 简化 实现 ， 一 般 用 作 缓 存 ， 比 如 淘宝 Tair 以 及 
Memcache。 一 致 性 哈 希 是 分 布 式 键 值 系统 中 常用 的 数据 分 布 技术 ， 因 
其 被 Amazon DynamoDB 系 统 使 用 而 变 得 相当 有 名。 


3. 分 布 式 表格 系统 


分 布 式 表格 系统 用 于 存储 关系 较为 复杂 的 半 结 构 化 数据 ， 与 分 布 式 链 
值 系 统 相 比 ， 分 布 式 表格 系统 不 仅仅 支持 简单 的 CRUD 操 作 ， 而 且 文 持 
扫 摘 某 个 主键 范围 。 分 布 式 玫 格 系统 以 表格 为 单位 组 织 数 据 ， 每 个 才 
格 包 括 很 多 行 ， 通 过 主键 标识 一 行 ， 文 持 根 据 主 键 的 CRUD 功 能 以 及 苑 
围 查 找 功能 。 


分 布 式 表格 系统 借鉴 了 很 多 关系 数据 库 的 技术 ， 例 如 文 持 某 种 程度 上 
的 事务 ， 比 如 单行 事务 ， 某 个 实体 组 (Entity Group， 一 个 用 户 下 的 所 
有 数据 往往 构成 一 个 实体 组 ) 下 的 多 行事 务 。 典 型 的 系统 包括 Google 


Bigtable 以 及 Megastore,Microsoft Azure Table Storage,Amazon 
DynamoDB 等 。 与 分 布 式 数据 库 相 比 ， 分 布 式 表 格 系统 主要 支持 针对 单 
张 表格 的 操作 ， 不 支持 一 些 特别 复杂 的 操作 ， 比 如 多 表 关 联 ， 多 表 联 
接 ， 髓 套子 查询 ， 男 外 ， 在 分 布 式 表格 系统 中 ， 同 一 个 表格 的 多 个 数 
据 行 也 不 要 求 包含 相同 类 型 的 列 ， 适 合 半 结 构 化 数据 。 分 布 式 表格 系 
统 是 一 种 很 好 的 权衡 ， 这 类 系统 可 以 做 到 超大 规模 ， 而 且 文 持 较 多 的 
功能 ， 但 实现 往往 比较 复杂 ， 而 且 有 一 定 的 使 用 门 查 。 


4. 分 布 式 数据 库 


分 布 式 数据 库 一 般 是 从 单机 关系 数据 库 扩展 而 来 ， 用 于 存储 结构 化 数 
据 。 分 布 式 数据 库 采用 二 维 表格 组 织 数据 ， 提 供 SQL 关 系 查询 语言 ， 
文 持 多 表 关 联 ， 般 僚 子 碍 询 等 复杂 操作 ， 并 提供 数据 库 事务 以 及 并 发 
控制 。 


典型 的 系统 包括 MySQL 数 据 库 分 片 (MySQL Sharding) 集群 ，Amazon 
RDS 以 及 Microsoft SQL Azure。 分 布 式 数据 库 文 持 的 功能 最 为 丰富 ， 符 
合用 户 使 用 习惯 ， 但 可 扩展 性 往往 受到 限制 。 当 然 ， 这 一 点 并 不 是 绝 
对 的 。Google Spanner 系 统 是 一 个 文 持 多 数据 中 心 的 分 布 式 数据 库 ， 它 
不 仅 文 持 丰 富 的 关系 数据 库 功 能 ， 还 能 扩展 到 多 个 数据 中 心 的 成 和 干 上 
万 台 机 器 。 除 此 之 外 ， 阿 里 巴巴 OceanBase 系 统 也 是 一 个 支持 自动 扩展 
的 分 布 式 关 系数 据 库 。 


关系 数据 库 是 目前 为 止 最 为 成 熟 的 存储 技术 ， 它 的 功能 极其 丰富 ， 产 
生 了 商业 的 关系 数据 库 软 件 (例如 Oracle,Microsoft SQL Server,IBM 

DB2，MySQL) 以 及 上 层 的 工具 及 应 用 软件 生态 链 。 然 而 ， 关 系数 据 
库 在 可 扩展 性 上 面临 着 巨大 的 挑战 。 传 统 关系 数据 库 的 事务 以 及 二 维 
关系 模型 很 难 高 效 地 扩展 到 多 个 存储 市 点 上 ， 男 外 ， 关 系数 据 库 对 于 
要 求 高 并 发 的 应 用 在 性 能 上 优化 空间 较 大 。 为 了 解决 关系 数据 库 面临 
的 可 扩展 性 、 高 并 发 以 及 性 能 方面 的 问题 ， 各 种 各 样 的 非 关 系数 据 库 
风起云涌 ， 这 类 系统 成 为 NoSQL 系 统 ， 可 以 理解 为 "Not Only SQL” 系 
统 。NoSQL 系 统 多 得 让 人 眼花 综 乱 ， 每 个 系统 都 有 自己 的 独到 之 处 ， 
适合 解决 某 种 特定 的 问题 。 这 些 系统 变化 很 快 ， 本 书 不 会 尝试 去 探寻 
某 种 NoSQL 系 统 的 实现 ， 而 是 从 分 布 式 存储 技术 的 角度 探寻 大 规模 存 
储 系统 背后 的 原理 。 


第 2 章 单机 存储 系统 


单机 存储 引擎 就 是 哈 希 表 、B 树 等 数据 结构 在 机 械 磁盘 、SSD 等 持久 化 
介质 上 的 实现 。 单 机 存储 系统 是 单机 存储 引擎 的 一 种 封装 ， 对 外 提供 
文件 、 键 值 、 表 格 或 者 关系 模型 。 单 机 存储 系统 的 理论 来 源 于 关系 数 
据 库 。 数 据 库 将 一 个 或 多 个 操作 组 成 一 组 ， 称 作 事务 ， 事 务必 须 满足 
原子 性 (Atomicity) 、 一 致 性 (Consistency) 、 隅 离 性 (Isolation) 以 
及 持久 性 (Durability) ， 简 称 为 ACID 特性 。 多 个 事务 并 发 执行 时 ， 数 
据 库 的 并 发 控制 管理 器 必须 能 够 保证 多 个 事务 的 执行 结果 不 能 破坏 某 


种 约定 ， 如 不 能 出 现 事务 执行 到 一 半 的 情况 ， 不 能 读 取 到 未 提交 的 事 
务 ， 等 等 。 为 了 保证 持久 性 ， 对 于 数据 库 的 每 一 个 变化 都 要 在 磁 一 上 
记录 日 志 ， 当 数据 库 系 统 突然 发 生 故 障 ， 重 局 后 能 够 恢复 到 之 前 一 至 


本 章 首先 介绍 CPU、IO、 网 络 等 硬件 基础 知识 及 性 能 参数 ， 接 着 介绍 
主流 的 单机 存储 引 敬 。 其 中 ， 哈 希 存 储 引 擎 是 哈 布 表 的 持久 化 实现 ，B 
树 存 储 引 擎 是 B 树 的 持久 化 实现 ， 而 LSM 树 (Log Structure Merge 
Tree) 存储 引擎 采用 批量 转 储 技术 来 避免 磁盘 随机 写 入 。 最 后 ， 介 绍 关 
系数 据 库 理论 基础 ， 包 括 事务 、 并 发 控制 、 故 障 恢 复 、 数 据 压缩 等 。 


2.1 硬件 基础 


硬件 发 展 很 快 ， 摩 尔 定 律 告诉 我 们 : 每 18 个 月 计算 机 等 IT 产品 的 性 能 
会 翻 一 番 ;， 或 者 说 相同 性 能 的 计算 机 等 IT 产品 ， 每 18 个 月 价钱 会 降 一 
半 。 但 是 ， 计 算 机 的 硬件 体系 架构 保持 相对 稳定 。 染 构 设 计 很 重要 的 
一 点 就 是 合理 选择 并 且 能 够 最 大 限度 地 发 挥 底层 硬件 的 价值 。 


2.1.1 CPU 架构 


中 


早期 的 CPU 为 单 核 必 片 ， 工 程 师 们 很 快意 识 到 ， 仅 仅 提高 单 核 的 速度 
会 产生 过 多 的 热量 且 无 法 带 来 相应 的 性 能 改善 。 因 此 ， 现 代 服 务 器 基 
本 为 多 核 或 多 个 CPU。 经 典 的 多 CPU 架构 为 对 称 多 处 理 结 构 

(Symmetric Multi-Processing,SMP) ， 即 在 一 个 计算 机 上 汇集 了 一 组 处 


理 器 ， 它 们 之 间 对 称 工作 ， 无 主 次 或 从 属 关 系 ， 共 至 相同 的 物理 内 存 
及 忌 线 ， 如 图 2-1 所 示 。 
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图 2-1 SMP 系 统 结 构 


图 2-1 中 的 SMP 系 统 由 两 个 CPU 组 成 ， 每 个 CPU 有 两 个 核心 (core) ， 
CPU 与 内 存 之 间 通 过 总 线 通信 。 每 个 核心 有 各 自 的 L1d Cache (L1 数 据 
缓存 ) 及 Lli Cache (LI 指令 缓存 ) ， 同 一 个 CPU 的 多 个 核心 共享 L2 以 
及 L3 缓 在， 另外， 某 些 CPU 还 可 以 通过 超 线程 技术 (Hyper-Threading 
Technology) 使 得 一 个 核心 具有 同时 执行 两 个 线程 的 能 


SMP 架 构 的 主要 特征 是 共享 ， 系 统 中 所 有 资源 (CPU、 内 存 、LO 等 ) 
都 是 共享 的 ， 由 于 多 CPU 对 前 端 总 线 的 竞争 ，SMP 的 扩展 能 力 非 常 有 
限 。 为 了 提高 可 扩展 性 ， 现 在 的 主流 服务 器 架构 一 般 为 NUMA (Non- 
Uniform Memory Access， 非 一 致 存储 访问 ) 架构 。 它 具有 多 个 NUMA 
节点 ， 每 个 NUMA 节 点 是 一 个 SMP 结 构 ， 一 般 由 多 个 CPU (如 4 个 ) 组 
成 ， 并 且 具 有 独立 的 本 地 内 存 、IO 槽 口 等 。 


图 2-2 为 包 人 台 4 个 NUMA 太 点 的 服务 右 以 构图 ，NUMAT 氮 可 以 直接 快 
速 访问 本 地 内 存 ， 也 可 以 通过 NUMA 互 联 互通 模块 访问 其 他 NUMA 闻 


点 的 内 存 ， 访 问 本 地 内 存 的 速度 远 远 高 于 远程 访问 的 速度 。 由 于 这 个 
特点 ， 为 了 更 好 地 发 挥 系统 性 能 ， 开 发 应 用 程序 时 需要 尽量 减少 不 同 
NUMA 刷 点 之 间 的 信息 交互 。 


NUMA 
碧 联 


模块 


图 2-2 NUMA 架 构 示 例 
2.1.2 IO 总 线 


存储 系统 的 性 能 瓶颈 一 般 在 于 IO， 因 此 ， 有 必要 对 IO 子 系统 的 架构 有 
一 个 大 致 的 了 解 。 以 Pntel x48 主 板 为 例 ， 它 是 典型 的 南 、 北 桥架 构 ， 如 
图 2-3 所 示 。 北 桥 芯 片 通过 前 端 总 线 (Front Side Bus,FSB) 与 CPU 相 
连 ， 内 存 模块 以 及 PCI-E 设 备 〈 如 高 端的 SSD 设 备 Fusion-IO) 挂 接 在 北 
桥 上 “。 北 桥 与 南 桥 之 间 通 过 DMI 连接 ，DMI 的 带宽 为 1GB/s， 网 卡 ( 包 
括 千 兆 以 及 万 兆 网 卡 ) ， 硬 盘 以 及 中 低 端 固态 盘 (如 Intel 320 系 列 
SSD) 挂 接 在 南 桥 上 。 如 有 果 采 用 SAIAZ 接 口 ， 那 么 最 大 带宽 
300MB/s。 


Intel X48 


北桥 改 片 


i: IlGB/s 


ee hr 
市 项 


硬盘 ( 15000 转 ， 带宽 
100MB/s 以 上 上， 随机 
访问 延 时 10ms ) 


ICHR9 南 


本 Et Eh | EE. _ 
侨 必 上 SSD ( 带宽 100 一 200 
MB/s， 随 机 访问 延 时 : 
0.1 ~ 0.2ms ) 


nternet ( 延迟 : 30 ~ 100ms 
数据 中 心 内 (延迟: 0.5ms ) 


图 2-3 Intel X48 主板 南北 桥架 构 


2.1.3 网 络 拓扑 


图 2-4 为 传统 的 数据 中 心 网 络 拓 扑 ， 思 科 过 去 一 直 提 倡 这 样 的 拓扑 ， 分 
为 三 层 ， 最 下 面 是 接 入 层 (Edge) ， 中 间 是 汇聚 层 (Aggregation) ， 
上 面 是 核心 层 (Core) 。 典 型 的 接 入 层 交 换 机 包含 48 个 1Gb 端 口 以 及 4 
个 10Gb 上 行 端口 ， 汇 聚 层 以 及 核心 层 的 交换 机 包含 128 个 10Gb 的 端 
口 。 传 统 三 层 结构 的 问题 在 于 可 能 有 很 多 搂 入 层 的 交换 机 接 到 汇聚 


层 ， 很 多 的 汇聚 层 交 换 机 接 到 核心 层 。 同 一 个 接 入 层 下 的 服务 器 之 间 
市 宽 为 1Gb， 不 同 接 入 层 交 换 机 下 的 服务 着 之 间 的 市 亮 小 于 1Gb。 由 于 
同一 个 接 入 层 的 服务 器 往往 部 署 在 一 个 机 架 内 ， 因 此 ， 设 计 系 统 的 时 
候 需 要 考虑 服务 器 是 否 在 一 个 机 架 内 ， 减 少 跨 机 染 找 贝 大 量 数 据 。 例 
如 ，Hadoop HDFS 默 认 存储 三 个 副本 ， 其 中 两 个 副本 放 在 同一 个 机 


架 ， 束 是 这 个 原因 。 


图 2-4 数据 中 心 网 络 拓扑 (三 层 结 构 ) 


为 了 减少 系统 对 网 络 拓 扑 结构 的 依赖 ，Google 在 2008 年 的 时 候 将 网 络 

改造 为 扁平 化 拓扑 结构 ， 即 三 级 CLOS 网 络 ， 同 一 个 集群 内 最 多 支持 

20480 台 服务 器 ， 且 任何 两 台 都 有 1Gb 带 宽 。CLOS 网 络 需 要 额外 投入 更 
多 的 交换 机 ， 带 来 的 好 处 也 是 明显 的 ， 设 计 系 统 时 不 需要 考虑 底层 网 
络 拓扑 ， 从 而 很 方便 地 将 整个 集群 做 成 一 个 计算 资源 池 。 


同一 个 数据 中 心 内 部 的 传输 延 时 是 比较 小 的 ， 网 络 一 次 来 回 的 时 间 在 1 
旱 秒 之 内 。 数 据 中 心 之 间 的 传输 延迟 是 很 大 的 ， 取 决 于 光 在 光纤 中 的 
传输 时 间 。 例 如 ， 北 京 与 杭州 之 间 的 直线 距离 大 约 为 1300 公 里 ， 光 在 
言 息 传输 中 走 折线 ， 假 设 折 线 距 离 为 直线 距离 的 1.5 倍 ， 那 么 光 传 输 一 
次 网 络 来 回 延 时 的 理论 值 为 1300x1.5x2/300000=13 毫 秒 ， 实 际 测试 值 大 


约 为 40 毫 秒 。 


常见 硬件 的 大 致 性 能 参数 如 表 2-1 所 示 。 


表 2-1 常用 硬件 性 能 参数 


类 别 消耗 的 时 间 
访问 LI Cache 0.5 ns 
分 支 预测 失败 5 ns 
访问 L2 Cache 7 ns 
Mutex 加 锁 /解锁 100 ns 
内 存 访 问 100 ns 
F 兆 网 络 发 送 1MB 数据 10 ms 
从 内 存 顺 序 读 取 1MB 数据 0.25 ms 
机 房 内 网 络 来 回 0.5 ms 
异地 机 房 之 间 网 络 来 回 30~100 ms 
SATA 磁 稚 寻 道 10 ms 
从 SATA 磁盘 顺序 读 取 1MB 数据 20 ms 
固态 盘 SSD 访问 延迟 0.1-0.2 ms 


人 磁盘 读 写 带 党 还 是 不 错 的 ，15000 转 的 SATA 盘 的 顺序 读 取 带宽 可 以 达 
到 100MB 以 上 ， 由 于 磁盘 寻 道 的 时 间 大 约 为 10ms， 顺 序 读 取 1MB 数 据 
的 时 间 为 : 磁盘 寻 道 时 间 + 数 据 读 取 时 间 ， 即 

10ms+1MB/100MB/sx1000=20ms。 存 储 系统 的 性 能 瓶 希 主要 在 于 磁盘 


随机 谈 写 。 设 计 存储 引擎 的 时 候 会 针对 磁盘 的 特性 做 很 多 的 处 理 ， 比 
如 将 随机 写 操作 转化 为 顺序 号， 通过 缓存 减少 磁盘 随机 读 操作 。 


固态 人 磁 副 (SSD) 在 最 近 几 年 得 到 越 来 越 多 的 关注 ， 各 大 互联 网 公司 都 
有 大 量 基 于 SSD 的 应 用 。SSD 的 特点 是 随机 读 取 延迟 小 ， 能 够 提供 很 高 
的 IOPS (每 秒 读 写 ，Input/Output Per Second) 性 能 。 它 的 主要 问题 在 
于 容量 和 价格 ， 设 计 存 储 系统 的 时 候 一 般 可 以 用 来 做 缓存 或 者 性 能 

求 较 高 的 关键 业务 。 


不 同 的 持久 化 存储 介质 对 比如 表 2-2 所 示 。 


表 2-2 存储 介质 对 比 


从 表 2-2 可 以 看 出 ，SSD 单 位 成 本 提供 的 IOPS 比 传统 的 SAS 或 者 SATA 位 
盘 都 要 大 得 多 ， 而 且 SSD 功 耗 低 ， 更 加 环保 ， 适 合 小 数据 量 并 且 对 性 能 
要 求 更 高 的 场景 。 


2.1.5 存储 层次 染 构 


从 分 布 式 系统 的 角度 看 ， 整 个 集群 中 所 有 服务 器 上 的 存储 介质 (内 
存 、 机 械 硬 盘 ，SSD) 构成 一 个 整体 ， 其 他 服务 器 上 的 存储 介质 与 本 机 


存储 介质 一 样 都 是 可 访问 的 ， 区 别 仅 仅 在 于 需要 额外 的 网 络 传输 及 网 
络 协 议 栈 等 访问 开销 。 


如 图 2-5 所 示 ， 假 设 集群 中 有 30 个 机 架 ， 每 个 机 架 接 入 40 台 服务 器 ， 同 
一 个 机 架 的 服务 句 接 入 到 同一 个 接 入 交换 机 ， 不 同 机 染 的 服务 器 接 入 
到 不 同 的 接 入 交换 机 。 每 台 服 务 器 的 内 存 为 24GB， 磁 盘 为 10x1TB 的 
SATA 机 械 硬 盘 (15000 转 ) 或 者 10x160GB 的 SSD 固 态 硬 盘 。 那 么 ， 对 
于 每 台 服 务 器 ， 本 地 内 存 大 小 为 24GB， 访 问 延 时 为 100ns， 本 地 SATA 
磁盘 的 大 小 为 4TB (假设 利用 率 为 40%) ， 随 机 访问 的 寻 道 时 间 为 
10ms， 本 地 SSD 磁 副 的 大 小 为 1TB (假设 利用 率 为 60%) ， 访 问 延 时 为 
0.1ms,SATA 位 如 和 SSD 的 访问 市 宽 受 限于 SATA 接 口 ， 最 大 不 超过 
300MB/A。 同 一 个 机 以 下 的 服务 器 的 内 存 总 量 大 致 为 ITB， 访 问 延 时 和 
带宽 受 限 于 网 络 ， 访 问 延 时 大 约 为 300hs， 带 宽 为 100MB/s， 磁 副 总 容 
量 为 160TB， 访 问 延 时 为 网 络 延 时 加 上 磁盘 寻 道 时 间 ， 大 约 为 
1lms,SSD 容 量 为 40TB， 访 问 延 时 为 网 络 延 时 加 上 SSD 访 问 延 时 ， 大 约 
为 2ms。 整 个 集群 下 所 有 服务 器 的 内 存 总 量 为 30TB， 访 问 延 时 和 种 宽 
受 限 于 网 络 ， 路 机 架 访 问 需要 经 过 聚合 层 或 者 核心 层 的 交换 机 ， 访 问 
延 时 大 约 为 500hs， 带 宽大 约 为 10OMBMS， 磁 盘 和 SSD 的 访问 延 时 分 别 为 
1lms 以 及 2ms， 市 视 为 10IMB/s。 


单机 
DRAM: 24GB, 100ns, 20GB,/s 
Disk: 4TB, 10ms, 300MB/S 
SSD: 1TB, 0.1ms, 300MB/s 


同一 个 机 架 (40 台 ) 

DRAM: 1ITB, 300hs, 100MB/s 
Disk: 160TB, llms, 100MB/S 
SSD: 40TB, 2ms, 100MB/s 


同一 个 集群 ( 30 机 架 ) 
DRAM: 30TB, 500us, 10MBAS 
Disk: 4.8PB, 12ms, 10MB/S 
SSD: 1.2PB, 3ms, 10MB,/s 


图 2-5 存储 层次 结构 图 


存储 系统 的 性 能 主要 包括 两 个 维度 : 吞吐 量 以 及 访问 延 时 ， 设 计 系统 
时 要 求 能 够 在 保证 访问 延 时 的 基础 上 ， 通 过 最 低 的 成 本 实现 尽 可 能 高 
的 吞吐 量 。 磁 盘 和 SSD 的 访问 延 时 差别 很 大 ， 但 带宽 差别 不 大 ， 因 此 ， 
磁盘 适合 大 块 顺序 访问 的 存储 系统 ，SSD 适 合 随机 访问 较 多 或 者 对 延 时 
比较 敏感 的 关键 系统 。 二 者 也 常常 组 合 在 一 起 进行 混合 存储 ， 热 数据 
(访问 频繁 ) 存储 到 SSD 中 ， 冷 数据 (访问 不 频繁 存储 到 磁盘 中 。 


2.2 单机 存储 引擎 


存储 引擎 是 存储 系统 的 发 动机 ， 直 接 决 定 了 存储 系统 能 够 据 供 的 性 能 
和 功能 。 存 储 系统 的 基本 功能 包括 : 增 、 删 、 读 、 改 ， 其 中 ， 读 取 操 


作 又 分 为 随机 读 取 和 顺序 扫描 。 哈 希 存储 引擎 是 哈 希 表 的 持久 化 实 

现 ， 支 持 增 、 删 、 改 ， 以 及 随机 读 取 操作 ， 但 不 支持 顺序 扫描 ， 对 应 
的 存储 系统 为 键 值 (Key-Value) 存储 系统 ，B 树 (B-Tree) 存储 引 敬 是 
B 树 的 持久 化 实现 ， 不 仅 支 持 单条 记录 的 增 、 删 、 读 、 改 操作 ， 还 支持 
顺序 扫描 ， 对 应 的 存储 系统 是 关系 数据 库 。 当 然 ， 键 值 系统 也 可 以 通 
过 B 树 存储 引擎 实现 ，LSM 树 (Log-Structured Merge Tree) 存储 引擎 和 
B 树 存储 引擎 一 样 ， 支 持 增 、 删 、 改 、 随 机 读 取 以 及 顺序 扫描 。 它 通过 
批量 转 储 技术 规避 磁盘 随机 写 入 问题 ， 广 泛 应 用 于 互联 网 的 后 台 存 储 
系统 ， 例 如 Google Bigtable、Google LevelDB 以 及 Facebook 开 源 的 


Cassandra 系 统 。 本 和 分 别 以 Bitcask、MySQL InnoDB 以 及 Google 


LevelDB 系 统 为 例 介绍 这 三 种 存储 引擎 。 


2.2.1 哈 希 存储 引擎 


Bitcask 是 一 个 基于 哈 希 表 结构 的 键 值 存储 系统 ， 它 仅 文 持 妃 加 操作 
(Append-only) ， 即 所 有 的 写 操作 只 追加 而 不 修改 老 的 数据 。 在 
Bitcask 系 统 中 ， 每 个 文件 有 一 定 的 大 小 限制 ， 当 文件 增加 到 相应 的 大 
小 时 ， 就 会 产生 一 个 新 的 文件 ， 老 的 文件 只 读 不 写 。 在 任意 时 刻 ， 只 
有 一 个 文件 是 可 写 的 ， 用 于 数据 追加 ， 称 为 活跃 数据 文件 (active data 
file) 。 而 其 他 已 经 达到 大 小 限制 的 文件 ， 称 为 老 数据 文件 (older data 
file) 。 


1. 数 据 结构 


如 图 2-6 所 示 ，Bitcask 数 据 文 件 中 的 数据 是 一 条 一 条 的 写 入 操作 ， 每 一 
条 记录 的 数据 项 分 别 为 主键 (key) 、value 内 容 (value) 、 主 键 长 度 

(key_sz) 、value 长 度 (value_sz) 、 时 间 戳 (timestamp) 以 及 crc 校 验 
值 。 (数据 删除 操作 也 不 会 删除 旧 的 条 目 ， 而 是 将 value 设 定 为 一 个 特 
殊 的 值 用 作 标 识 ) 。 内 存 中 采用 基于 哈 希 表 的 索引 数据 结构 ， 哈 希 表 
的 作用 是 通过 主键 快速 地 定位 到 value 的 位 置 。 哈 希 表 结构 中 的 每 一 项 
包含 了 三 个 用 于 定位 数据 的 信息 ， 分 别 是 文件 编号 (file id) ，value 在 
文件 中 的 位 置 (value_pos) ，value 长 度 (value_sz) ， 通 过 读 取 file_id 
对 应 文件 的 value_pos 开 始 的 value_sz 个 字 节 ， 这 就 得 到 了 最 终 的 value 
值 。 写 入 时 首先 将 Key-Value 记 录 追 加 到 活跃 数据 文件 的 末尾 ， 接 着 更 
新 内 存 哈 希 表 ， 因 此 ， 每 个 写 操作 总 共 需 要 进行 一 次 顺序 的 磁 副 写 入 
和 一 次 内 存 操作 。 


文件 编号 | value 长 度 | value 位 置 时 间 戳 


活跃 数据 文件 
文件 编号 ralue 长 度 | value 位 置 时 间 戳 
艺 数据 文件 


value 长 度 | value 位 置 


于 呈 2 上 
讨 间 痢 EE 键 长 度 ‖value 长 度 value 内 容 
截 | 主键 长 度 |value 长 度 | ”主键 value 内 容 


图 2-6 Bitcask 数 据 结构 


Bitcask 在 内 存 中 存储 了 主键 和 value 的 索引 信息 ， 磁 盘 文 件 中 存储 了 主 
键 和 value 的 实际 内 容 。 系 统 基于 一 个 假设 ，value 的 长 度 远 大 于 主键 的 
长 度 。 假 如 value 的 平均 长 度 为 IKB， 每 条 记录 在 内 存 中 的 索引 信息 为 
32 字 节 ， 那 么 ， 磁 盘 内 存 比 为 32:1。 这 样 ，32GB 内 存 索引 的 数据 量 为 
32GBx32=1TB。 


2. 定 期 合并 


Bitcask 系 统 中 的 记录 删除 或 者 更 新 后 ， 原 来 的 记录 成 为 垃圾 数据 。 如 
果 这 些 数 据 一 直 保 存 下 去 ， 文 件 会 无 限 脱 胀 下 去 ， 为 了 解决 这 个 问 
题 ，Bitcask 需 要 定期 执行 合并 (Compaction) 操作 以 实现 垃圾 回收 。 
所 谓 合并 操作 ， 即 将 所 有 老 数 据 文件 中 的 数据 扫描 一 遍 并 生成 新 的 数 
据 文 件 ， 这 里 的 合并 其 实 就 是 对 同一 个 key 的 多 个 操作 以 只 保留 最 新 一 
个 的 原则 进行 删除 ， 每 次 合并 后 ， 新 生成 的 数据 文件 就 不 再 有 宛 余数 
据 了 。 


3. 快 速 恢 复 


Bitcask 系 统 中 的 哈 硕 索引 存储 在 内 存 中 ， 如 果 不 做 额外 的 工作 ， 服 务 
堪 断 电 重 局 重建 哈 希 表 需 要 扫描 一 志 数 据 文 件 ， 如 果 数 据 文件 很 大 ， 
这 是 一 个 非常 耗 时 的 过 程 。Bitcask 通 过 索引 文件 (hint file) 来 提高 
建 哈 希 表 的 速度 。 


人 简单 来 说 ， 索 引文 件 束 是 将 内 存 中 的 哈 布 索引 表 转 储 到 磁 表 生 成 的 结 
朱文 件 。Bitcask 对 老 数 据 文件 进行 合并 操作 时 ， 会 产生 新 的 数据 文 
作 5 这 个 过 程 中 逻 会 广 竺 个案 引文 人 3 这 个 家 引 尺 和信 记 承 鲜 二 休 记 
隶 的 哈 希 索引 信息 。 与 数据 文件 不 同 的 古 ， 索 引文 件 并 不 存储 具体 的 
value 值 ， 只 存储 value 的 位 置 (与 内 存 哈 希 表 一 样 ) 。 这 样 ， 在 重建 哈 
希 表 时 ， 融 不 需要 扫描 所 有 数据 文件 ， 而 仅仅 需要 将 索引 文件 中 的 数 
据 一 行 行 读 取 并 重建 即 可 ， 大 大 减少 了 重启 后 的 恢复 时 间 。 


2.2.2 B 树 存储 引擎 


相 比 哈 布 存储 引擎 ，B 树 存储 引擎 不 仅 文 持 随 机 读 取 ， 还 文 持 苑 围 扫 
擅 。 天 系数 据 库 中 通过 索引 访问 数据 ， 在 Mysql InnoDB 中 ， 有 一 个 称 
为 聚集 索引 的 特殊 索引 ， 行 的 数据 存 于 其 中 ， 组 织 成 B+ 树 (B 树 的 一 
种 ) 数据 结构 。 


1. 数 据 结构 


如 图 2-7 所 示 ，MySQL InnoDB 按 照 页 面 (Page) 来 组 织 数 据 ， 每 个 页 
面 对 应 B+ 树 的 一 个 节 上 点。 其中， 叶子 市 点 保存 每 行 的 完整 数据 ， 非 叶 
子 节点 保存 索引 信息 。 数 据 在 每 个 节点 中 有 序 存储 ， 数 据 库 查询 时 需 
要 从 根 节 点 开始 二 分 查找 直到 叶子 节点 ， 每 次 读 取 一 个 节点 ， 如 果 对 
应 的 页 面 不 在 内 存 中 ， 需 要 从 磁盘 中 读 取 并 缓存 起 来 。B+ 树 的 根 节 点 
是 常 驻 内 存 的 ， 因 此 ，B+ 树 一 次 检索 最 多 需要 h-1 次 磁 副 IO， 复 杂 度 为 
O (h) =O (logdN) 〈N 为 元 素 个 数 ，d 为 每 个 节点 的 出 度 ，h 为 B+ 树 
高 度 ) 。 修 改 操作 首先 需要 记录 提交 日 志 ， 接 着 修改 内 存 中 的 B+ 树 。 
如 果 内 存 中 的 被 修改 过 的 页 面 超过 一 定 的 比率 ， 后 台 线 程 会 将 这 些 页 
面 刷 到 磁盘 中 持久 化 。 当 然 ，ImnoDB 实 现时 做 了 大 量 的 优化 ， 这 部 分 
内 容 已 经 超出 了 本 书 的 范围 。 


图 2-7 B+ 树 存储 引擎 


2. 绥 冲 区 管理 


缓冲 区 管理 夯 负 责 将 可 用 的 内 存 划 分 成 缓冲 区 ， 缓 冲 区 是 与 页 面 同等 
大 小 的 区 域 ， 磁 盘 块 的 内 容 可 以 传送 到 缓 钟 区 中 。 缓 冲 区 管理 硕 的 天 
键 在 于 蔡 换 策略 ， 即 选择 将 哪些 页 面 淘汰 出 缓 神 池 。 第 见 的 算法 有 以 
下 两 种 。 


(1) LRU 


LRU 算 法 淘汰 最 长 时 间 没 有 读 或 者 写 过 的 块 。 这 种 方法 要 求 缓 冲 区 管 
理 亏 按照 页 面 最 后 一 次 被 访问 的 时 间 组 成 一 个 链表 ， 每 次 淘汰 链表 尾 
部 的 页 面 。 直 觉 上 ， 长 时 间 没 有 读 写 的 页 面 比 那些 最 近 访 问 过 的 页 面 
有 更 小 的 最 近 访 问 的 可 能 性 。 


(2) LIRS 


LRU 算 法 在 大 多 数 情况 下 表现 是 不 错 的 ， 但 有 一 个 问题 ， 假 如 某 一 个 
查询 做 了 一 次 全 表 扫 描 ， 将 导致 缓冲 池 中 的 大 量 页 面 (可 能 包含 很 多 
很 快 被 访问 的 热点 页 面 ) 被 蔡 换 ， 从 而 污染 缓冲 池 。 现 代数 据 库 一 般 
采用 LIRS 算 法 ， 将 缓冲 池 分 为 两 级 ， 数 据 首先 进入 第 一 级 ， 如 果 数 据 
在 较 短 的 时 间 内 被 访问 两 次 或 者 以 上 ， 则 成 为 热点 数据 进入 第 二 级 ， 
每 一 级 内 部 还 是 采用 LRU 替 换算 法 。Oracle 数 据 库 中 的 Touch Count 算 法 
和 MySQL InnoDB 中 的 蔡 换 算法 都 采用 了 类 似 的 分 级 思想 。 以 MySQL 
InnoDB 为 例 ，InnoDB 内 部 的 LRU 链 表 分 为 两 部 分 ， 新 子 链表 (new 
sublist) 和 老子 链表 (old sublist) ， 默 认 情况 下 ， 前 者 占 508， 后 者 占 
3/8。 页 面 首 先 插入 到 老子 链表 ，InnoDB 要 求 页 面 在 老子 链表 停留 时 间 
超过 一 定 值 ， 比 如 1 秒 ， 才 有 可 能 被 转移 到 新 子 链表 。 当 出 现 全 表 扫 描 
时 ，InnoDB 将 数据 页 面 载 入 到 老子 链表 ， 由 于 数据 页 面 在 老子 链表 中 
的 停留 时 间 不 够 ， 不 会 被 转移 到 新 子 链表 中 ， 这 就 避免 了 新 子 链 表 中 
的 页 面 被 蔡 换 出 去 的 情况 。 


2.2.3LSM 树 存储 引擎 


LSM 树 (Log Structured Merge Tree) 的 思想 非常 朴素 ， 就 是 将 对 数据 
的 修改 增 量 保持 在 内 存 中 ， 达 到 指定 的 大 小 限制 后 将 这 些 修改 操作 批 
量 写 入 磁盘， 读 取 时 需要 合并 人 磁盘 中 的 历史 数据 和 内 存 中 最 近 的 修改 
操作 。LSM 树 的 优势 在 于 有 效 地 规避 了 磁盘 随机 写 入 问题 ， 但 读 取 时 


可 能 需要 访问 较 多 的 磁盘 文件 。 本 万 介绍 LevelDB 中 的 LSM 树 存储 引 


属 


1. 存 储 结构 


如 图 2-8 所 示 ，LevelDB 存 储 引 擎 主要 包括 : 内 存 中 的 MemTable 和 不 可 
变 MemTable (Immutable MemTable， 也 称 为 Frozen MemTable， 即 冻结 
MemTable) 以 及 磁盘 上 的 几 种 主要 文件 : 当前 (Current) 文件 、 清 单 
(Manifest) 文件 、 操 作 日 志 (Commit Log， 也 称 为 提交 日 志 ) 文件 以 
及 SSTable 文 件 。 当 应 用 写 入 一 条 记录 时 ，LevelDB 会 首先 将 修改 操作 
写 入 到 操作 日 志文 件 ， 成 功 后 再 将 修改 操作 应 用 到 MemTable， 这 样 就 
完成 了 写 入 操作 。 


| 入 操作 
MemTable 


不 可 变 MemTable 


1 
1 
I 
1 
1 
E 
1 
1 «7 WW 
第 2 层 .SS ! 前 文件 
1 
1 
E 
1 


SSTable 


图 2-8 LevelDB 存 储 引 擎 


当 MemTable 占 用 的 内 存 达到 一 个 上 限 值 后 ， 需 要 将 内 存 的 数据 转 储 到 
外 存 文件 中 。LevelDB 会 将 原先 的 MemTable 冻 结 成 为 不 可 变 
MemTable， 并 生成 一 个 新 的 MemTable。 新 到 来 的 数据 被 记 入 新 的 操作 
日 志文 件 和 新 生成 的 MemTable 中 。 顾 名 思 义 ， 不 可 变 MemTable 的 内 容 
是 不 可 更 改 的 ， 只 能 读 取 不 能 写 入 或 者 删除 。LevelDB 后 台 线 程 会 将 不 
可 变 MemTable 的 数据 排序 后 转 储 到 磁盘 ， 形 成 一 个 新 的 SSTable 文 件 ， 
这 个 操作 称 为 Compaction。SSTable 文 件 是 内 存 中 的 数据 不 断 进 行 


Compaction 操 作 后 形成 的 ， 且 SSTable 的 所 有 文件 是 一 种 层级 结构 ， 第 0 
层 为 Level 0， 第 1 层 为 Level 1， 以 此 类 推 。 


SSTable 中 的 文件 是 按照 记录 的 主键 排序 的 ， 每 个 文件 有 最 小 的 主键 和 
最 大 的 主键 。LevelDB 的 清单 文件 记录 了 这 些 元 数据 ， 包 括 属于 哪个 层 
级 、 文 件 名 称 、 最 小 主键 和 最 大 主键 。 当 前 文件 记录 了 当前 使 用 的 消 
单 文件 名 。 在 LevelDB 的 运行 过 程 中 ， 随 着 Compaction 的 进行 ，SSTable 
文件 会 发 生变 化 ， 新 的 文件 会 产生 ， 老 的 文件 被 废弃 ， 此 时 往往 会 生 
成 新 的 清单 文件 来 记载 这 种 变化 ， 而 当前 文件 则 用 来 指出 哪个 清单 文 
件 才 是 当前 有 效 的 。 


直观 上 ，LevelDB 每 次 查询 都 需要 从 老 到 新 读 取 每 个 层级 的 SSTable 文 
件 以 及 内 存 中 的 MemTable。LevelDB 做 了 一 个 优化 ， 由 于 LevelDB 对 外 
只 支持 随机 读 取 单条 记录 ， 查 询 时 LevelDB 首 先 会 去 查看 内 存 中 的 
MemTable， 如 有 果 MemTable 包 含 记录 的 主键 及 其 对 应 的 值 ， 则 返回 记录 
即 可 ; 如 果 MemTable 没 有 读 到 该 主键 ， 则 接 下 来 到 同样 处 于 内 存 中 的 
不 可 变 Memtable 中 去 读 取 ; 类 似 地 ， 如 果 还 是 没有 读 到 ， 只 能 依次 从 
新 到 老 读 取 磁盘 中 的 SSTable 文 件 。 


2. 合 并 


LevelDB 写 入 操作 很 简单 ， 但 是 读 取 操作 比较 复杂 ， 和 需要 在 内 存 以 及 各 
个 层级 文件 中 按照 从 新 到 老 依 次 查找 ， 代 价 很 高 。 为 了 加 快 读 取 速 


度 ，LevelDB 内 部 会 执行 Compaction 操 作 来 对 已 有 的 记录 进行 整理 压 
缩 ， 从 而 删除 一 些 不 再 有 效 的 记录 ， 减少 数据 规模 和 文件 数量 。 


LevelDB 的 Compaction 操 作 分 为 两 种 :minor compaction 和 major 
compaction。Minor compaction 是 指 当 内 存 中 的 MemTable 大 小 到 了 一 定 
值 时 ， 将 内 存 数据 转 储 到 SSTable 文 件 中 。 每 个 层级 下 有 多 个 SSTable， 
当 某 个 层级 下 的 SSTable 文 件数 目 超过 一 定 设置 值 后 ，levelDB 会 从 这 个 
层级 中 选择 SSTable 文 件 ， 将 其 和 高 一 层级 的 SSTable 文 件 合并 ， 这 融 是 
major compaction。major compaction 相 当 于 执行 一 次 多 路 归并 : 按照 主 
键 顺序 依次 迭代 出 所 有 SSTable 文 件 中 的 记录 ， 如 有 果 没 有 保存 价值 ， 则 
直接 抛弃 ， 否 则 ， 将 其 写 入 到 新 生成 的 SSTable 文 件 中 。 


2.3 数据 模型 


如 琳 说 存储 引擎 相当 于 存储 系统 的 发 动机 ， 那 么 ， 数 据 模 型 就 古 存 储 
系统 的 外 壳 。 存 储 系统 的 数据 模型 主要 包括 三 类 : 文件、 关系 以 及 随 
着 NoSQL 技 术 流 行 起 来 的 键 值 模型 。 传 统 的 文件 系统 和 关系 数据 库 系 
统 分 别 采 用 文件 和 关系 模型 。 关 系 模型 摘 述 能 力 强 ， 产 业 链 完整 ， 是 
存储 系统 的 业界 标准 。 然 而 ， 随 着 应 用 在 可 扩展 性 、 高 并 发 以 及 性 能 
上 提出 越 来 越 高 的 要 求 ， 大 而 全 的 关系 数据 库 有 了 时 显得 力不从心 ， 因 
此 ， 产 生 了 一 些 新 的 数据 模型 ， 比 如 键 值 模型 ， 关 系 弱 化 的 表格 模 


A 与 
型 ， 等 等 。 


2.3.1 文件 模型 


文件 系统 以 目录 树 的 形式 组 织 文 件 ， 以 类 UNIX 操 作 系 统 为 例 ， 根 目录 
为 /， 包 含 /usr、/bin、/home 等 于 日 录 ， 每 个 子 日 录 义 包公 其 他 子 日 录 或 
者 文件 。 文 件 系统 的 操作 涉及 目录 以 及 文件 ， 例 如 ， 打 开 / 关 闭 文件 、 
读 写 文件 、 人 遍历 目录 、 设 置 文件 属性 等 。POSIX (Portable Operating 

System Interface) 是 应 用 程序 访问 文件 系统 的 API 标 准 ， 它 定义 了 文件 
系统 存储 接口 及 操作 集 。POSIX 主 要 接口 如 下 所 示 。 


eOpen/close: 打开 /关闭 一 个 文件 ， 获 取 文 件 摘 述 符 ; 


eRead/write: 读 取 一 个 文件 或 者 往 文 件 中 写 入 数据 ; 
eOpendir/closedir 打开 或 者 天 闭 一 个 目录 ; 
eReaddir: 遍历 目录 。 


POSIX 标 准 不 仅 定 义 了 文件 操作 接口 ， 而 且 还 定义 了 读 写 操作 语义 。 
例如 ，POSIX 标 准 要 求 读 写 并 发 时 能 够 傈 证 操作 的 原子 性 ， 即 读 操 作 
要 么 读 到 所 有 结果 ， 要 么 什么 也 读 不 到 ;， 另外， 有 要求 读 操作 能 够 读 到 
之 前 所 有 写 操作 的 结果 。POSIX 标 准 适 合 单机 文件 系统 ， 在 分 布 式 文 
件 系统 中 ， 出 于 性 能 考虑 ， 一 般 不 会 完全 遵守 这 个 标准 。NEFS 
(Network File System) 文件 系统 允许 客户 端 缓存 文件 数据 ， 多 个 客户 
问 并 发 修改 同一 个 文件 时 可 能 出 现 不 一 致 的 情况 。 举 个 例 于 ，NFS 客 户 


端 A 和 B 需 要 同时 修改 NFS 服 务 器 的 某 个 文件 ， 每 个 客户 端 都 在 本 地 组 
存 了 文件 的 副本 ，A 修 改 后 先 提 交 ，B 后 提交 ， 那 么 ， 即 使 A 和 B 修 改 的 
征文 件 的 不 同位 置 ， 也 会 出 现 B 的 修改 履 盖 A 的 情况 。 


对 象 模型 与 文件 模型 比较 类 似 ， 用 于 存储 图 片 、 视 频 、 文 档 等 二 进 制 
数据 块 ， 典 型 的 系统 包括 Amazon Simple Storage (S3) ，Taobao File 
System (TFS) 。 这 些 系统 弱化 了 目录 树 的 概念 ，Amazon S3 只 支持 一 
级 目录 ， 不 支持 子 目 录 ，Taobao TFS 甚 至 不 支持 目录 结构 。 与 文件 模 
型 不 同 的 是 ， 对 象 模 型 要 求 对 象 一 次 性 写 入 到 系统 ， 只 能 删除 整个 对 
象 ， 不 允许 修改 其 中 某 个 部 分 。 


2.3.2 关系 模型 


每 个 关系 是 一 个 表格 ， 由 多 个 元 组 ( 行 ) 构成 ， 而 每 个 元 组 又 包含 多 
个 属性 ( 列 ) 。 关 系 名 、 属 性 名 以 及 属性 类 型 称 作 该 关系 的 模式 

(schema) 。 例 如 ，Movie 关 系 的 模式 为 Movie (title,year,length) ， 其 
中 ，title、year、length 是 属性 ,假设 它们 的 类 型 分 别 为 字符 串 、 整 数 、 


整数 。 


数据 库 语 言 SQL 用 于 描述 查询 以 及 修改 操作 。 数 据 库 修 改 包 含 三 条 命 
令 : INSERT、DELETE 以 及 UPDATE， 查 询 通 常 通过 select-from-where 
语句 来 表达 ， 它 具有 图 2-9 所 示 的 一 般 形 式 。Select 查 询 语句 计算 过 程 大 
致 如 下 〈 不 考虑 查询 优化 ) : 


SEEECE 
FROM 
WHERE 
GROUP BY 


HAVING 


ORDER BY 


图 2-9 SQL 查询 
1) 取 FROM 子 句 中 列 出 的 各 个 关系 的 元 组 的 所 有 可 能 的 组 合 。 
2) 将 不 符合 WHERE 子 句 中 给 出 的 条 件 的 元 组 去 掉 。 


3) 如 果 有 GROUP BY 子 句 ， 则 将 剩 下 的 元 组 按 GROUP BY 子 句 中 给 出 
的 属性 的 值 分 组 。 


4) 如 果 有 HAVING 子 句 ， 则 按照 HAVING 子 句 中 给 出 的 条 件 检查 每 一 
个 组 ， 去 挥 不 符合 条 件 的 组 。 


5) 按照 SELECT 子 句 的 说 明 ， 对 于 指定 的 属性 和 属性 上 的 聚集 (例如 
求 和 ) 计算 出 结果 元 组 。 


6) 按照 ORDER BY 子 句 中 的 属性 列 的 值 对 结果 元 组 进行 排序 。 


SQL 查询 还 有 一 个 强大 的 特性 是 允许 在 WHERE、EFROM 和 HAVING 子 
人 句 中 使 用 子 查询 ， 子 查询 又 是 一 个 完整 的 select-from-where 语 人 句 。 


另外 ，SQL 还 包括 两 个 重要 的 特性 : 索引 以 及 事务 。 其 中 ， 数 据 库 索 
引用 于 减少 SQL 执行 时 扫描 的 数据 量 ， 提 高 读 取 性 能 ， 数 据 库 事务 则 
规定 了 各 个 数据 库 操作 的 语义 ， 保 证 了 多 个 操作 并 发 执行 时 的 ACID 特 
性 (原子 性 、 一 致 性 、 隔 离 性 、 持 久 性 ) ， 后 续 会 专门 介绍 。 


2.3.3 键 值 模型 


大 量 的 NoSQL 系 统 采用 了 键 值 模型 (也 称 为 Key-Value 模 型 ) ， 每 行 记 
录 由 主键 和 值 两 个 部 分 组 成 ， 支 持 基 于 主键 的 如 下 操作 : 


ePut: 保存 一 个 Key-Value 对 。 

eGet: 读 取 一 个 Key-Value 对 。 

eDelete: 删除 一 个 Key-Value 对 。 

Key-Value 模 型 过 于 人 简单， 文 持 的 应 用 场景 有 限 ，NoSQL 系 统 中 使 用 比 
较 广 泛 的 模型 是 表格 模型 。 表 格 模型 弱化 了 关系 模型 中 的 多 表 天 联 ， 
文 持 基于 单 表 的 简单 操作 ， 典 型 的 系统 是 Google Bigtable 以 及 其 开源 


Java 实 现 HBase。 表 格 模型 除了 文 持 简 单 的 基于 主键 的 操作 ， 还 文 持 苑 
围 扫描 ， 另 外 ， 也 文 持 基 于 列 的 操作 。 主 要 操作 如 下 : 


eInsert 插入 一 行 数据 ， 每 行 包括 铬 干 列 ; 
eDelete: 删除 一 行 数据 ; 


eUpdate: 更 新 整 行 或 着 其 中 的 菏 些 列 的 数据 ; 


eGet: 读 取 整 行 或 者 其 中 某 些 列 数据 ，; 


eScan: 扫描 一 段 范 围 的 数据 ， 根 据 主键 确定 扫描 的 范围 ， 文 持 扫 描 间 
分 列 ， 文 持 按 列 过 滤 、 排 序 、 分 组 等 。 


与 关系 模型 不 同 的 是 ， 表 格 模型 一 般 不 文 持 多 表 关 联 操作 ，Bigtable 这 
样 的 系统 也 不 文 持 二 级 索引 ， 事 务 操作 文 持 也 比较 弱 ， 各 个 系统 文 持 

的 功能 差异 较 大 ， 没 有 统一 的 标准 。 男 外 ， 表 格 模型 往往 还 文 持 无 模 

式 (schema-less) 特性 ， 也 就 是 说 ， 不 需要 预先 定义 每 行 包括 哪些 列 以 
及 每 个 列 的 类 型 ， 多 行 之 间 人 允许 包含 不 同 列 。 


2.3.4 SQL 与 NoSQL 


随 着 互联 网 的 飞速 发 展 ， 数 据 规模 越 来 越 大 ， 并 发 量 越 来 越 高 ， 传 统 
的 关系 数据 库 有 时 显得 力不从心 ， 非 关系 型 数据 库 (NoSQL,Not Only 
SQL) 应 运 而 生 。NoSQL 系 统 带 来 了 很 多 新 的 理念 ， 比 如 良好 的 可 扩 
展 性 ， 弱 化 数据 库 的 设计 范式 ， 弱 化 一 致 性 要 求 ， 在 一 定 程度 上 解决 
了 海量 数据 和 高 并 发 的 问题 ， 以 至 于 很 多 人 对 “NoSQL 是 否 会 取代 

SQL” 存 在 疑虑 。 然 而 ，NoSQL 只 是 对 SQL 特 性 的 一 种 取舍 和 升华 ， 使 


得 SQL 更 加 适应 海量 数据 的 应 用 场景 ， 二 着 的 优势 将 不 断 融合 ， 不 存 
在 谁 取代 谁 的 问题 。 


关系 数据 库 在 海量 数据 场景 面临 如 下 挑战 : 


e 事 务 关系 模型 要 求 多 个 SQL 操 作 满足 ACID 特 性 ， 所 有 的 SQL 操 作 要 
么 全 部 成 功 ， 要 么 全 部 失败 。 在 分 布 式 系统 中 ， 如 有 果 多 个 操作 属于 不 
同 的 服务 器 ， 保 证 它们 的 原子 性 需要 用 到 两 阶段 提交 协议 ， 而 这 个 协 
议 的 性 能 很 低 ， 且 不 能 容忍 服务 器 故障 ， 很 难 应 用 在 海量 数据 场景 。 


e 联 表 传统 的 数据 库 设 计时 需要 满足 范式 要 求 ， 例 如 ， 第 三 范式 要 求 在 
一 个 关系 中 不 能 出 现在 其 他 关系 中 已 包含 的 非 主键 信 筷 。 假 设 存在 一 
个 部 门 信息 表 ， 其 中 每 个 部 门 有 部 门 编号 、 部 门 名 称 、 部 门 位 介 等 信 
轧 ， 那 么 在 员工 信息 表 中 列 出 部 门 编号 后 就 不 能 加 入 部 门 名 称 、 部 门 
简介 等 部 门 有 关 的 信息 ， 人 否则 就 会 有 大 量 的 数据 元 余 。 而 在 海量 数据 
的 场景 ， 为 了 避免 数据 库 多 表 天 联 操 作 ， 往 往 会 使 用 数据 元 余 等 违反 
数据 库 范 式 的 手段 。 实 践 表 明 ， 这 些 手 段 带 来 的 收益 远 高 于 成 本 。 


e 性 能 关系 数据 库 采 用 B 树 存储 引擎 ， 更 新 操作 性 能 不 如 LSM 树 这 样 的 
存储 引擎 。 另 外 ， 如 果 只 有 基于 主键 的 增 、 删 、 查 、 改 操作 ， 关 系数 
据 库 的 性 能 也 不 如 专门 定制 的 Key-Value 存 储 系统 。 


随 着 数据 规模 越 来 越 大 ， 可 扩展 性 以 及 性 能 提升 可 以 带 来 越 来 越 明 显 
的 收益 ， 而 NoSQL 系 统 要 么 可 扩展 性 好 ， 要 么 在 特定 的 应 用 场景 性 能 


民 高 ， 广 泛 应 用 于 互联 网 业务 中 。 然 而 ，NoSQL 系 统 也 面临 如 下 问 


一 


湛 


e 缺 少 统一 标准 。 经 过 几 十 年 的 发 展 ， 关 系数 据 库 已 经 形成 了 SQL 语言 
这 样 的 业界 标准 ， 并 拥有 完整 的 生态 链 。 然 而 ， 各 个 NoSQL 系 统 使 用 
方法 不 同 ， 切 换 成 本 高 ， 很 难 通用 。 


e 使 用 以 及 运 维 复 浅 。NoSQL 系 统 无 论 是 移 型 ， 还 是 使 用 方式 ， 都 有 很 
大 的 学 问 ， 往 往 需要 理解 系统 的 实现 ， 另 外 ， 缺 乏 专 业 的 运 维 工 具 和 
运 维 人 员 。 而 关系 数据 库 具有 完整 的 生态 链 和 丰富 的 运 维 工 具 ， 也 有 


大 量 经 验 丰 宦 的 运 维 人 员 。 


总 而 言 之 ， 关 系数 据 库 很 通用 ， 有 是 业界 标准 ， 但 是 在 一 些 特 定 的 应 用 
场景 存在 可 扩展 性 和 性 能 的 问题 ，NoSQL 系 统 也 有 一 定 的 用 武之 地 。 
从 技术 学 习 的 角度 看 ， 不 必 纠 结 SQL 与 NoSQL 的 区 别 ， 而 十 借鉴 二 者 
各 上 自 不 同 的 优势 ， 着 重 理解 关系 数据 库 的 原理 以 及 NoSQL 系 统 的 高 可 
扩展 ( 佳 


2.4 事务 与 并 发 控制 


事务 规范 了 数据 库 操 作 的 语义 ， 每 个 事务 使 得 数据 库 从 一 个 一 致 的 状 
态 原 子 地 转移 到 另 一 个 一 致 的 状态 。 数 据 库 事务 具有 原子 性 
(Atomicity) 、 一 致 性 (Consistency) 、 隔 离 性 (Isolation) 以 及 持久 


性 (Durability) ， 即 ACID 属性 ， 这 些 特性 使 得 多 个 数据 库 事务 并 发 执 
行 时 互 不 干扰 ， 也 不 会 获取 到 中 间 状 态 的 错误 结 采 。 


多 个 事务 并 发 执行 时 ， 如 果 它 们 的 执行 结果 和 按照 某 种 顺序 一 个 接着 
一 个 串 行 执行 的 效果 等 同 ， 这 种 隅 离 级 别称 为 可 串 行 化 。 可 串 行 化 是 
比较 理想 的 情况 ， 商 业 数 据 库 为 了 性 能 考虑 ， 往 往 会 定义 多 种 隔离 级 
别 。 事 务 的 并 发 控制 一 般 通 过 锁 机 制 来 实现 ， 锁 可 以 有 不 同 的 粒度 ， 
可 以 锁 住 行 ， 也 可 以 锁 住 数据 块 甚至 锁 住 整个 表格 。 由 于 互联 网 业务 
中 读 事 务 的 比例 往往 远 远 高 于 写 事 务 ， 为 了 提高 读 事 务 性 能 ， 可 以 采 
用 写 时 复制 (Copy-On-Write,COW) 或 者 多 版 本 并 发 控制 (Multi- 

Version Concurrency Control,MVCC) 技术 来 避免 写 事 务 阻塞 读 事务 。 


2.4.1 事务 


事务 是 数据 库 操 作 的 基本 单位 ， 它 具有 原子 性 、 一 致 性 、 隔 离 性 和 持 
入 性 这 四 个 基本 属性 。 


(0 栋 于 性 


事务 的 原子 性 首先 体现 在 事务 对 数据 的 修改 ， 即 要 么 全 都 执行 ， 要 人 么 
全 都 不 执行 ， 例 如 ， 从 银行 账户 A 转 一 笔 球 项 a 到 账户 B， 结 采 必 须 是 从 
A 的 账户 上 扣除 款项 a 并 且 在 B 的 账户 上 增加 球 项 a， 不 能 只 是 其 中 一 个 
账户 的 修改 。 但 是 ， 事 务 的 原子 性 并 不 总 是 能 够 保证 修改 一 定 完成 了 
或 者 一 定 没有 进行 ， 例 如 ， 在 ATM 机 器 上 进行 上 述 转账 ， 转 账 指 令 提 


交 后 通信 中 断 或 者 数据 库 主 机 异常 了 ， 那 么 转账 可 能 完成 了 也 可 能 没 
有 进行 : 如 和泉 通信 中 断 发 生前 数据 库 主 机 完整 接收 到 了 转账 指令 且 后 
续 执 行 也 正常 ， 那 么 转账 成 功 完 成 了 ;， 如 果 转 账 指令 没有 到 达 数 据 库 
主机 或 者 虽然 到 达 但 后 续 执 行 异常 〈 例 如 写 操作 日 志 失 败 或 者 账户 余 
额 不 足 ) ， 那 么 转账 就 没有 进行 。 要 确定 转账 是 否 成 功 ， 需 要 待 通 信 
恢复 或 者 数据 库 主机 恢复 后 得 询 账 户 交 易 历 史 或 余额 。 事 务 的 原子 性 
也 体现 在 事务 对 数据 的 读 取 上 ， 例 如 ， 一 个 事务 对 同一 数据 项 的 多 次 
读 取 的 结果 一 定 是 相同 的 。 


(2) 一 致 性 


事务 需要 保持 数据 库 数 据 的 正确 性 、 完 整 性 和 一 致 性 ， 有 些 时 候 这 种 
一 致 性 由 数据 库 的 内 部 规则 保证 ， 例 如 数据 的 类 型 必须 正确 ， 数 据 值 
必须 在 规定 的 范围 内 ， 等 等 ， 另 外 一 些 时 候 这 种 一 致 性 由 应 用 保证 ， 
例如 一 般 情 况 下 银行 账 务 余额 不 能 是 负数 ， 信 用 卡 消 费 不 能 超过 该 卡 
的 信用 和 额度 等 。 


(3) 隔离 性 


许多 时 候 数 据 库 在 并 发 执行 多 个 事务 ， 每 个 事务 可 能 需要 对 多 个 表 项 
进行 修改 和 查询 ， 与 此 同时 ， 更 多 的 查询 请 求 可 能 也 在 执行 中 。 数 据 
库 需 要 保证 每 一 个 事务 在 它 的 修改 全 部 完成 之 前 ， 对 其 他 的 事务 是 不 
可 见 的 ， 换 名 话说 ， 不 能 让 其 他 事务 看 到 该 事务 的 中 间 状 态 ， 例 如 ， 


从 银行 账户 A 转 一 笔 款 项 a 到 账户 B， 不 能 让 其 他 事务 (例如 账户 查询 ) 
看 到 A 账户 已 经 扣除 款项 a 但 B 账 尸 却 还 没有 增加 款项 a 的 状态 。 


(4) 持久 性 


事务 完成 后 ， 它 对 于 数据 库 的 影响 是 永久 性 的 ， 即 使 系统 出 现 各 种 异 
党 也 是 如 此 。 


出 于 性 能 考虑 ， 许 多 数据 库 人 允许 使 用 着 选择 牺牲 隔离 属性 来 换取 并 发 
度 ， 从 而 获得 性 能 的 提升 。SQL 定 义 了 4 种 隔离 级 别 。 


eRead Uncommitted (RU) : 读 取 未 提交 的 数据 ， 即 其 他 事务 已 经 修改 
但 还 未 提交 的 数据 ， 这 是 最 低 的 隔离 级 别 ; 


eRead Committed (RC) : 读 取 已 提交 的 数据 ， 但是， 在 一 个 事务 中 ， 
对 同一 个 项 ， 前 后 两 次 读 取 的 结果 可 能 不 一 样 ， 例 如 第 一 次 读 取 时 劝 


一 个 事务 的 修改 还 没有 提交 ， 第 二 次 读 取 时 已 经 提交 了 ; 


eRepeatable Read (RR) : 可 重复 读 取 ， 在 一 个 事务 中 ， 对 同一 个 项 ， 
确保 前 后 两 次 读 取 的 结果 一 样 ; 


eSerializable (S) : 可 序列 化 ， 即 数据 库 的 事务 是 可 串 行 化 执行 的 ， 就 
像 一 个 事务 执行 的 时 候 没有 别 的 事务 同时 在 执行 ， 这 是 最 高 的 隔离 级 


2 


隔离 级 别 的 降低 可 能 导致 读 到 及 数据 或 者 事务 执行 异常 ， 例 如 : 


eLost Update (LU) : 第 一 类 丢失 更 新 : 两 个 事务 同时 修改 一 个 数据 
项 ， 但 后 一 个 事务 中 途 失 败 回 深 ， 则 前 一 个 事务 已 提交 的 修改 都 可 能 
A 


eDirty Reads (DR) : 一 个 事务 读 取 了 另外 一 个 事务 更 新 却 没有 提交 的 
数据 项 ; 


eNon-Repeatable Reads (NRR) : 一 个 事务 对 同一 数据 项 的 多 次 读 取 可 
能 得 到 不 同 的 结 


eSecond Lost Updates problem (SLU) : 第 二 类 丢失 更 新 : 两 个 并 发 事 
务 同 时 读 取 和 修改 同一 数据 项 ， 则 后 面 的 修改 可 能 使 得 前 面 的 修改 失 


So 
湾 


ePhantom Reads (PR) : 事务 执行 过 程 中 ， 由 于 前 面 的 查询 和 后 面 的 
查询 的 期 间 有 男 外 一 个 事务 插入 数据 ， 后 面 的 查询 结果 出 现 了 前 面 查 
询 结 果 中 未 出 现 的 数据 。 


表 2-3 说 明了 隔离 级 别 与 读 写 异常 (不一致) 的 关系 。 容 易 发 现 ， 所 有 
的 隔离 级 别 都 保证 不 会 出 现 第 一 类 丢失 更 新 ， 另 外 ， 在 最 高 隔离 级 别 
(Serializable) 下 ， 数 据 不 会 出 现 读 写 的 不 一 致 。 


表 2-3 隔离 级 别 与 读 写 异 常 的 关系 


2.4.2 并 发 控制 


1. 数 据 库 锁 


事务 分 为 儿 种 类 型 : 读 事 务 ， 写 事务 以 及 读 写 混合 事务 。 相 应 地 ， 锁 
也 分 为 两 种 类 型 : 读 锁 以 及 写 冉 ， 人 允许 对 同一 个 元 素 加 多 个 读 山 ， 但 
只 允许 加 一 个 写 锁 ， 且 写 事 务 将 阻塞 读 事 务 。 这 里 的 元 素 可 以 是 一 
行 ， 也 可 以 是 一 个 数据 块 甚至 一 个 表格 。 事 务 如 采 只 操作 一 行 ， 可 以 
对 该 行 加 相应 的 读 锁 或 者 写 锁 ， 如 采 操 作 多 行 ， 需 要 锁 住 整个 行 范 


表 2-4 中 T1 和 T2 两 个 事务 操作 不 同行 ， 初 始 时 A=B=25，T1 将 A 加 100， 
T2 将 B 乘 以 2?， 由 于 T1 和 T2 操 作 不 同行 ， 两 个 事务 没有 锁 冲 突 ， 可 以 并 
行 执行 而 不 会 破坏 系统 的 一 致 性 。 


表 2-4 ”两 个 事务 操作 不 同行 


WRITE(A,t) 125 


表 2-5 中 TI1 扫 描 从 A 到 C 的 所 有 行 ， 将 它们 的 结果 相 加 后 更 新 A， 初 始 时 
A=C=25， 假 设 在 T1 执 行 过 程 中 T2 插 入 一 行 B， 那 么 ， 事 务 T1 和 T2 无 法 
做 到 可 串 行 化 。 为 了 保证 数据 库 一 致 性 ，T1 执 行 范围 扫描 时 需要 锁 住 
从 A 到 C 这 个 范围 的 所 有 更 新 ，T2 插 入 B 时 ， 由 于 整个 范围 被 锁 住 ，T2 
获取 锁 失 败 而 等 待 T1 先 执行 完成 。 


表 2-5 事务 读 取 一 段 数据 范围 


1 
SCAN([A=>C], {t1,t3}) 
t= tl+t3 
WRITE(A, t) 


多 个 事务 并 发 执行 可 能 引入 死 锁 。 表 2-6 中 T1 读 取 A， 人 然后 将 A 的 值 加 
100 后 更 新 B,T2 读 取 B， 然 后 将 B 的 值 乘 以 2 更 新 A， 初 始 时 A=B=25。T1 
持 有 A 的 读 锁 ， 需 要 获取 B 的 写 锁 ， 而 T2 持 有 B 的 读 锁 ， 需 要 A 的 写 

锁 。T1 和 T2 这 两 个 事务 循环 依赖 ， 任 何 一 个 事务 都 无 法 顺利 完成 。 


表 2-6 数据库 死 锁 


READ(A, t) 
t :=t+ 100 
WRITE(B.t) 


解决 死 锁 的 思路 主要 有 两 种 : 第 一 种 思路 是 为 每 个 事务 设置 一 个 超时 
时 间 ， 超 时 后 目 动 回 深 ， 表 2-6 中 如 末 T1 或 T2 二 者 之 中 的 茶 个 事务 回 
深 ， 则 男 外 一 个 事务 可 以 成 功 执行 。 第 二 种 思路 是 死 锁 检 测 。 死 锁 出 


现 的 原因 在 于 事务 之 间 互 相依 赖 ，T1 依 赖 T2，T2 又 依赖 T1， 依 赖 关 系 
构成 一 个 环 路 。 检 测 到 死 锁 后 可 以 通过 回 深 其 中 菏 些 事务 来 消除 循环 
依赖 。 


2. 写 时 复制 


互联 网 业务 中 读 事务 占 的 比例 往往 远 远 超过 写 事 务 ， 很 多 应 用 的 读 写 
比例 达到 6:1， 甚 至 10:1。 写 时 复制 (Copy-On-Write,COW) 读 操 作 不 
用 加 锁 ， 极 大 地 提高 了 读 取 性 能 。 


图 2-10 中 写 时 复制 B+ 树 执行 写 操作 的 步骤 如 下 。 

1) 拷贝 : 将 从 叶子 到 根 节 点 路 径 上 的 所 有 节点 捞 贝 出 来 。 
2) 修改 : 对 拷贝 的 节点 执行 修改 。 

3) 提交 : 原子 地 切换 根 节 点 的 指针 ， 使 之 指向 新 的 根 节 点 。 


如 朱 读 操作 发 生 在 第 3 步 扣 区 之 前 ， 那 么 ， 将 读 取 老 斑点 的 数据 ， 否 则 
将 读 取 新 节点 ， 读 操作 不 需要 加 锁 保 扩 。 写 时 复制 技术 涉及 引用 计 
数 ， 对 每 个 市 挟 维 护 一 个 引用 计数 ， 表 示 被 多 少 市 点 引用 ， 如 来 引用 
计数 变 为 0， 说 明 没 有 市 态 引 用 ， 可 以 被 坪 摇 回收 。 


写 时 复制 技术 原理 人 简单， 问题 是 每 次 写 操作 都 需要 拷贝 从 叶子 到 根 市 
点 路 径 上 的 所 有 节点 ， 写 操作 成 本 高 ， 另 外 ， 多 个 写 操作 之 间 是 互 斤 


的 ， 同 一 时 刻 只 允许 一 个 写 操作 。 
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图 2-10 写 时 复制 的 B+ 树 
3. 多 版 本 并 发 控制 


除了 写 时 复制 技术 ， 多 版 本 并 发 控制 ， 即 MVCC (Multi-Version 
Concurrency Control) ， 也 能 够 实现 读 事务 不 加 锁 。MVCC 对 每 行 数据 
维护 多 个 版 本 ， 无 论 事务 的 执行 时 间 有 多 长 ，MVCC 总 是 能 够 提供 与 
事务 开始 时 刻 相 一 致 的 数据 。 


以 MySQL InnoDB 存 储 引擎 为 例 ，InnoDB 对 每 一 行 维 护 了 两 个 隐 含 的 
列 ， 其 中 一 列 存储 行 被 修改 的 < 时 间 ?， 另 外 一 列 存储 行 被 删除 的 “时 


间 ”， 注 意 ，InnoDB 人 存储 的 并 不 是 绝对 时 间 ， 而 是 与 时 间 对 应 的 数据 库 
系统 的 版 本 号 ， 每 当 一 个 事务 开始 时 ，InnoDB 都 会 给 这 个 事务 分 配 一 
个 递增 的 版 本 号 ， 所 以 版 本 号 也 可 以 被 认为 是 事务 号 。 对 于 每 一 行 得 
询 语句 ，InnoDB 都 会 把 这 个 查询 语句 的 版 本 号 同 这 个 查询 语句 过 到 的 
行 的 版 本 号 进行 对 比 ， 然 后 结合 不 同 的 事务 隅 离 级 别 ， 来 决定 是 人 否 返 
回 改行 。 


下 面 分 别 以 SELECT、DELETE、INSERT、UPDATE 语 句 来 说 明 。 


(1) SELECT 


对 于 SELECT 语 句 ， 只 有 同时 满足 了 下 面 两 个 条 件 的 行 ， 才 能 个 返 回 : 


a) 行 的 修改 版 本 号 小 于 等 于 该 事务 号 。 


b) 行 的 删除 版 本 号 要 么 没有 被 定义 ， 要 么 大 于 事务 的 版 本 号 。 


如 琳 行 的 修改 或 着 删除 版 本 号 大 于 事务 号 ， 说 明 行 古 伞 该 事务 后 面 局 
动 的 事务 修改 或 着 删除 的 。 在 可 重复 读 取 隔 离 级 别 下 ， 后 开始 的 事务 
对 数据 的 影响 不 应 该 被 先 开始 的 事务 看 见 ， 所 以 应 该 忽略 后 开始 的 事 
务 的 更 新 或 者 删除 操作 。 


(2) INSERT 


对 新 插入 的 行 ， 行 的 修改 版 本 号 更 新 为 该 事务 的 事务 号 。 


(3) DELETE 


对 于 删除 ，InnoDB 直 接 把 该 行 的 删除 版 本 号 设置 为 当前 的 事务 号 ， 相 
当 于 标记 为 删除 ， 而 不 古物 理 删 除 。 


(4) UPDATE 


在 更 新 行 的 时 候 ，InnoDB 会 把 原来 的 行 复制 一 份 ， 并 把 当前 的 事务 号 
作为 该 行 的 修改 版 本 号 。 


MVCC 读 取 数 据 的 时 候 不 用 加 锁 ， 每 个 查询 都 通过 版 本 检查 ， 只 获得 
目 己 需要 的 数据 版 本 ， 从 而 大 大 提高 了 系统 的 并 发 度 。 当 然 ， 为 了 实 
现 多 版 本 ， 必 须 对 每 行 存储 额外 的 多 个 版 本 的 数据 。 另 外 ，MVCC 存 
储 引擎 还 必须 定期 删除 不 再 需要 的 版 本 ， 及 时 回收 空间 。 


2.5 故障 恢复 


数据 库 运 行 过 程 中 可 能 会 发 生 故 障 ， 这 个 时 候 某 些 事 务 可 能 执行 到 一 
半 但 没有 提交 ， 当 系统 重启 时 ， 需 要 能 够 恢复 到 一 致 的 状态 ， 即 要 人 么 
提交 整个 事务 ， 要 么 回 滚 。 数 据 库 系统 以 及 其 他 的 分 布 式 存 储 系 统一 
般 采 用 操作 日 志 (有 时 也 称 为 提交 日 志 ， 即 Commit Log) 技术 来 实现 
故障 恢复 。 操 作 日 志 分 为 回 深 日 志 (UNDO Log) 、 重 做 日 志 (REDO 
Log) 以 及 UNDO/REDO 日 志 。 如 果 记 录 事 务 修改 前 的 状态 ， 则 为 回 滚 


日 志 ; 相应 地 ， 如 末 记 录 事 务 修改 后 的 状态 ， 则 为 重 做 日 志 。 本 市 介 
绍 操作 日 志 及 故障 恢复 基础 知识 。 


二 5 十 探 作 目 走 


为 了 保证 数据 库 的 一 致 性 ， 数 据 库 操作 需要 持久 化 到 磁盘 ， 如 果 每 次 
操作 者 随机 更 新 磁盘 的 某 个 数据 块 ， 系 统 性 能 将 会 很 过 。 因 此 ， 通 过 
操作 日 志 顺 序 记 录 每 个 数据 库 操 作 并 在 内 存 中 执行 这 些 操作 ， 内 存 中 
的 数据 定期 刷新 到 磁盘 ， 实 现 将 随机 写 请 求 转 化 为 顺序 写 请 求 。 


操作 日 志 记 录 了 事务 的 操作 。 例 如 ， 事 务 T 对 表格 中 的 X 执 行 加 10 操 
作 ， 初 始 时 X=5， 更 新 后 X=15， 那 么 ，UNDO 日 志 记 为 <TX，5>， 
REDO 日 志 记 为 <TX，15> ，UNDO/REDO 日 志 记 为 <TX，5，15 


> o 


关系 数据 库 系 统一 般 采用 UNDO/REDO 日 志 ， 相 关 技 术 可 以 参考 数据 
库 系统 实现 方面 的 资料 。 可 以 将 关系 数据 库存 储 模型 做 一 定 程度 的 简 
1 全 


1) 假设 内 存 足够 大 ， 每 次 事务 的 修改 操作 都 可 以 缓存 在 内 存 中 。 


2) 数据 库 的 每 个 事务 只 包含 一 个 操作 ， 即 每 个 事务 都 必须 立即 提交 


(Auto Commit) 。 


REDO 日 志 要 求 我 们 将 所 有 未 提交 事务 修改 的 数据 块 保留 在 内 存 中 。 人 得 
化 后 的 存储 模型 可 以 采用 单一 的 REDO 日 志 ， 大 大 简化 了 存储 系统 故障 
恢复 。 


252 重 做 目 志 


存储 系统 如 果 采 用 REDO 日 志 ， 其 写 操 作 流程 如 下 : 


1) 将 REDO 日 志 以 追加 写 的 方式 写 入 磁 副 的 日 志文 件 。 


2) 将 REDO 日 志 的 修改 操作 应 用 到 内 存 中 。 


3) 返回 操作 成 功 或 者 失败 。 


REDO 日 志 的 约束 规则 为 ， 在 修改 内 存 中 的 元 素 X 之 前 ， 要 确保 与 这 一 
修改 相关 的 操作 日 志 必 须 移 刷 入 到 磁 弄 中。 顾名思义 ， 用 REDO 日 志 进 
行 故障 恢复 ， 只 需要 从 头 到 尾 读 取 日 志文 件 中 的 修改 操作 ， 并 将 它们 
逐个 应 用 到 内 存 中 ， 有 即 重 做 一 过 。 


为 什么 需要 先 写 操作 日 志 再 修改 内 存 中 的 数据 呢 ? 假如 先 修改 内 存 中 
的 数据 ， 那 么 用 户 束 能 立刻 读 到 修改 后 的 结果 ， 一 旦 在 完成 内 存 修改 
与 写 入 日 志 之 间 发 生 故 障 ， 那 么 最 近 的 修改 操作 无 法 恢复 。 然 而 ， 之 
前 的 用 户 可 能 已 经 读 取 了 修改 后 的 结 末 ， 这 了 驶 会 产生 不 一 致 的 情况 。 


2.5.3 优化 手段 


1. 成 组 提交 


存储 系统 要 求 完 将 REDO 日 志 刷 入 人 磁盘 才 可 以 更 新 内 存 中 的 数据 ， 如 果 
每 个 事务 都 要 求 将 日 志 立 即 刷 入 磁 副 ， 系 统 的 否 吐 量 将 会 很 差 。 因 
此 ， 存 储 系统 往往 有 一 个 是 否 立 即 刷 入 磁 强 的 选项 ， 对 于 一 致 性 要 求 
很 高 的 应 用 ， 可 以 设置 为 立即 刷 入 ;， 相 应 地 ， 对 于 一 致 性 有 要求 不 太 高 
的 应 用 ， 可 以 设置 为 不 要 求 立即 刷 入 ， 首 先 将 REDO 日 志 缓 存 到 操作 系 
统 或 者 存储 系统 的 内 存 缓冲 区 中 ， 定 期 刷 入 磁 弄 。 这 种 做 法 有 一 个 问 
题 ， 如 果 存 储 系统 意外 故障 ， 可 能 丢失 最 后 一 部 分 更 新 操作 。 


成 组 提交 (Group Commit) 技术 是 一 种 有 效 的 优化 手段 。 REDO 日 志 首 
先 写 入 到 存储 系统 的 日 志 缓 冲 区 中 : 


a) 日 志 缓冲 区 中 的 数据 量 超过 一 定 大 小 ， 比 如 512KB; 
b) 距离 上 次 刷 入 磁盘 超过 一 定时 间 ， 比 如 10ms 。 


当 满足 以 上 两 个 条 件 中 的 某 一 个 时 ， 将 日 志 缓冲 区 中 的 多 个 事务 操作 
一 次 性 刷 入 磁盘 ， 接 着 一 次 性 将 多 个 事务 的 修改 操作 应 用 到 内 存 中 并 
逐个 返回 客户 端 操 作 结 有 末 。 与 定期 刷 入 磁盘 不 同 的 是 ， 成 组 提交 技术 
保证 REDO 日 志 成 功 刷 入 磁盘 后 才 返 回 写 操作 成 功 。 这 种 做 法 可 能 会 牺 
牲 写 事务 的 延 时 ， 但 大 大 提高 了 系统 的 吞吐 量 。 


如 朱 所 有 的 数据 都 保存 在 内 存 中 ， 那 么 可 能 出 现 两 个 问题 : 


e 故 障 恢 复 时 需要 回放 所 有 的 REDO 日 志 ， 效 率 较 低 。 如 果 REDO 日 志 
较 多 ， 比 如 超过 100GB， 那 么 ， 故 障 恢复 时 间 是 无 法 接受 的 。 


e 内 存 不 足 。 即 使 内 存 足够 大 ， 存 储 系 统 往往 也 只 能 够 缓存 最 近 较 长 一 
段 时 间 的 更 新 操作 ， 很 难 缓存 所 有 的 数据 。 


因此 ， 需 要 将 内 存 中 的 数据 定期 转 储 (Dump) 到 磁盘 ， 这 种 技术 称 状 

checkpoint (检查 点 ) 技术 。 系 统 定期 将 内 存 中 的 操作 以 某 种 易于 加 载 

的 形式 (checkpoint 文 件 ) 转 储 到 磁盘 中 ， 并 记录 checkpoint 时 刻 的 日 志 
回放 点 ， 以 后 故障 恢复 只 需要 回放 checkpoint 时 刻 的 日 志 回 放 点 之 后 的 

REDO 日 志 。 


由 于 将 内 存 数据 转 储 到 磁盘 需要 很 长 的 时 间 ， 而 这 段 时 间 还 可 能 有 新 
的 更 新 操作 ，checkpoint 必 须 找 到 一 个 一 致 的 状态 。checkpoint 流 程 如 
下 : 


1) 日 志文 件 中 记录 “START CKPT”。 


2) 将 内 存 中 的 数据 以 某 种 易于 加 载 的 组 织 方式 转 储 到 磁盘 中 ， 形 成 
checkpoint 文 件 。checkpoint 文 件 中 往往 记录 “START CKPT” 的 日 志 回 放 
点 ， 用 于 故障 恢复 。 


3) 日 志文 件 中 记录 “END CKPT”。 


故障 恢复 流程 如 下 : 


1) 将 checkpoint 文 件 加 载 到 内 存 中 ， 这 一 步 操作 往往 只 需要 加 载 索引 
数据 ， 加 载 效率 很 高 。 


2) 读 取 checkpoint 文 件 中 记录 的 “START CKPT”* 日 志 回 放 点 ， 回 放 之 后 
的 REDO 日 志 。 


上 述 checkpoint 故 障 恢复 方式 依赖 REDO 日 志 中 记录 的 都 是 修改 后 的 结 
果 这 一 特性 ， 也 就 是 说 ， 即 使 checkpoint 文 件 中 已 经 包含 了 某 些 操 作 的 
结果 ， 重 新 回放 一 次 或 者 多 次 这 些 操作 的 REDO 日 志 也 不 会 造成 数据 错 
误 。 如 果 同 一 个 操作 执行 一 次 与 重复 执行 多 次 的 效果 相同 ， 这 种 操作 
具有 “和 需 等 性 ”。 有 些 操作 不 具备 这 种 特性 ， 例 如 ， 加 法 操作 、 妃 加 操 
作 。 如 果 REDO 日 志 记 录 的 是 这 种 操作 ， 那 么 checkpoint 文 件 中 的 数据 
一 定 不 能 包含 “START CKPT” 与 “END CKPT” 之 间 的 操作 。 为 此 ， 主 要 
有 两 种 处 理 方 法 : 


echeckpoint 过 程 中 停止 写 服务 ， 所 有 的 修改 操作 直接 失败 。 这 种 方法 
实现 商 单 ， 但 不 适合 在 线 业务 。 


e 内 存 数据 结构 支持 快照 。 执 行 checkpoint 操 作 时 首先 对 内 存 数据 结构 

做 一 次 快照 ， 接 着 将 快照 中 的 数据 转 储 到 磁盘 生成 checkpoint 文 件 ， 并 
记录 此 时 对 应 的 REDO 日 志 回 放 点 。 生 成 checkpoint 文 件 的 过 程 中 允许 
写 操 作 ， 但 checkpoint 文 件 中 的 快照 数据 不 会 包含 这 些 操作 的 结果 。 


2.6 数据 压缩 


数据 压缩 分 为 有 损 压 缩 与 无 损 压 缩 两 种 ， 有 损 压缩 算法 压缩 比率 高 ， 

但 数据 可 能 失真 ， 一 般 用 于 压缩 图 片 、 音 频 、 视 频 ， 而 无 损 压 缩 算法 
能 够 完全 还 原 原 始 数据 ， 本 文 只 讨论 无 损 压 缩 算 法 。 早 期 的 数据 压缩 
技术 就 是 基于 编码 上 的 优化 技术 ， 其 中 以 Huffman 编 码 最 为 知名 ， 它 通 
过 统计 字符 出 现 的 频率 计算 最 优 前 绥 编 码 。1977 年 ， 以 色 列 人 Jacob 

Ziv 和 Abraham Lempel 发 表 论文 《顺序 数据 压缩 的 一 个 通用 算法 》， 从 
此 ，LZ 系 列 压 缩 算 法 几乎 芍 断 了 通用 无 损 压 缩 领域 ， 常 用 的 Gzip 算法 
中 使 用 的 LZ77，GIF 图 片 格式 中 使 用 的 LZW， 以 及 LZO 等 压缩 算法 都 
属于 这 个 系列 。 设 计 压 缩 算法 时 不 仅 要 考虑 压缩 比 ， 还 要 考虑 压缩 算 
法 的 执行 效率 。Google Bigtable 系 统 中 采用 BMDiff 和 Zippy 压 缩 算 法 ， 

这 两 个 算法 也 是 LZ 算 法 的 变种 ， 它 们 通过 牺牲 一 定 的 压缩 比 ， 换 来 执 
行 效率 的 大 幅 提升 。 


压缩 算法 的 核心 是 找 重复 数据 ， 列 式 存 储 技术 通过 把 相同 列 的 数据 组 
织 在 一 起 ， 不 仪 减少 了 大 数据 分 析 需 要 查询 的 数据 量 ， 还 大 大 地 提高 
了 数据 的 压缩 比 。 传 统 的 OLAP (Online Analytical Processing) 数据 
库 ， 如 Sybase IQ、Teradata， 以 及 Bigtable、HBase 等 分 布 式 表格 系统 都 
实现 了 列 式 存储 。 本 市 介绍 数据 压缩 以 及 列 式 存储 相关 的 基础 知识 。 


2.6.1 压缩 算法 


压缩 是 一 个 专门 的 研究 课题 ， 没 有 通用 的 做 法 ， 需 要 根据 数据 的 特点 
选择 或 者 自己 开发 合适 的 算法 。 压 缩 的 本 质 就 是 找 数据 的 重复 或 者 规 
律 ， 用 尽量 少 的 字 有 表示 。 


Hufftman 编 码 是 一 种 基于 编码 的 优化 技术 ， 通 过 统计 字符 出 现 的 频率 来 
计算 最 优 前 级 编码 。LZ 系 列 算 法 一 般 有 一 个 窗口 的 概念 ， 在 窗口 内 部 
找 重复 并 维护 数据 字典 。 常 用 的 压缩 算法 包括 Gzip、LZW、LZO， 这 
些 算 法 都 借鉴 或 改进 了 原始 的 LZ77 算 法 ， 如 Gzip 压缩 混合 使 用 了 LZ77 
以 及 Huffman 编 码 ，LZW 以 及 LZO 算 法 是 LZ77 思 想 在 实现 手段 的 进 一 
步 优 化 。 存 储 系 统 在 选择 压缩 算法 时 需要 考虑 压缩 比 和 效率 。 读 操作 
需要 移 读 取 磁 盘 中 的 内 容 再 解压 缩 ， 写 操作 需要 驳 压 缩 再 将 压缩 结 
写 入 到 磁盘 ， 整 个 操作 的 延 时 包括 压缩 /解压 缩 和 磁盘 读 写 的 延 人 过， 压 
缩 比 越 大 ， 磁 副 读 写 的 数据 量 越 小 ， 而 压缩 /解压 缩 的 时 间 也 会 越 长 ， 
所 以 这 里 需要 一 个 很 好 的 权衡 点 。Google Bigtable 系 统 中 使 用 了 BMDiff 
以 及 Zippy 两 种 压缩 算法 ， 它 们 通过 牺牲 一 定 的 压缩 比 换取 算法 执行 速 
度 的 大 幅 提升 ， 从 而 获得 更 好 的 折衷 。 


1.Huffman 编 码 


前 绥 编 码 要 求 一 个 字符 的 编码 不 能 是 另 一 个 字符 的 前 缀 。 假 设 有 三 个 
字符 A、B、C， 它 们 的 二 进 制 编码 分 别 是 0、1、01， 如 果 我 们 收 到 一 
段 信 息 是 01010， 解 码 时 我 们 如 何 区 分 是 CCA 还 是 ABABA， 或 者 ABCA 


呢 ? 一 种 解决 方案 束 是 前 缀 编码， 要 求 一 个 字 从 编码 不 能 十 男 外 一 个 
字符 编码 的 前 级 。 如 末 使 用 前 级 编码 将 A、B、C 编 码 为 : 


A: 0B: 10C: 110 


这 样 ，01010 就 只 能 被 翻译 成 ABB。Huffman 编 码 需 要 解决 的 问题 是 ， 
如 何 找 出 一 种 前 缀 编码 方式 ， 使 得 编码 的 长 度 最 短 。 


假设 有 一 个 字符 早 3334444555556666667777777， 它 是 由 3 个 3，4 个 4， 
5 个 5，6 个 6，7 个 7 组 成 的 。 那 么 ， 对 应 的 前 级 编码 可 能 是 : 


1) 3:000 4:001 5:010 6:011 7:1 


2) 3:000 4:001 7:01 5:10 6:11 


第 1 种 编码 方式 的 权 值 为 (3+4+5+6) *3+7*1=61， 而 第 2 种 编码 方式 的 
权 值 为 (3+4) *3+ (5+6+7) *2=57。 可 以 看 出 ， 第 2 种 编码 方式 的 长 度 
更 短 ， 而 且 我 们 还 可 以 知道 ， 第 2 种 编码 方式 是 最 优 的 Huftman 编 码 。 
Hufftman 编 码 的 构造 过 程 不 在 本 书 讨论 范围 之 内 ， 感 兴趣 的 读者 可 以 参 
考 数据 结构 的 相关 图 书 。 


2.LZ 系 列 压 缩 算法 


LZ 系 列 压 缩 算 法 是 基于 字典 的 压缩 算法 。 假 设 需要 压缩 一 篇 英文 文 
章 ， 最 容易 想到 的 压缩 算法 是 构造 一 本 英文 字典 ， 这 样 ， 我 们 只 需要 


傈 存 每 个 单词 在 字典 中 出 现 的 页 码 和 位 置 束 可 以 了 。 页 码 用 两 个 字 
他 ， 位 置 用 一 个 字 节 ， 那 么 一 个 单词 需要 使 用 三 个 字 节 表示 ， 而 我 们 
知道 一 般 的 英语 单词 长 度 都 在 三 个 字 市 以 上 。 因 此 ， 我 们 实现 了 对 这 
篇 英文 文章 的 压缩 。 当 然 ， 实 际 的 通用 压缩 算法 不 能 这 么 做 ， 因 为 我 
们 在 解压 时 需要 一 本 英文 字典 ， 而 这 部 分 信息 是 压缩 程序 不 可 预知 
的 ， 同 时 也 不 能 保存 在 压缩 信息 里 面 。LZ 系 列 的 算法 是 一 种 动态 创建 
字典 的 方法 ， 压 缩 过 程 中 动态 创建 字典 并 保存 在 压缩 信息 里 面 。 


LZ77 是 第 一 个 LZ 系 列 的 算法 ， 比 如 字符 串 ABCABCDABC 中 ABC 重复 
出 现 了 三 次 ， 压 缩 信息 中 只 需要 保存 第 一 个 ABC， 后 面 两 个 ABC 只 需 
要 把 第 一 个 出 现 ABC 的 位 置 和 长 度 存 储 下 来 承 可 以 了 。 这 样 ， 保 存 后 
面 两 个 ABC 就 只 需要 一 个 二 元 数组 < 匹配 串 的 相对 位 置 ， 匹 配 长 度 
>。 解 压 的 时 候 ， 根 据 匹配 串 的 相对 位 置 ， 向 前 找到 第 一 个 ABC 的 位 
置 ， 然 后 根据 匹配 的 长 度 ， 直 接 把 第 一 个 ABC 复 制 到 当前 解压 缓冲 区 
里 面 承 可 以 了 。 


如 表 2-7 所 示 ，{Sj}* 表 示 字 符 串 S 的 所 有 子 串 构 成 的 集合 ， 例 如 ， 

{ABCj* 是 字符 串 A、B、C、AB、BC、ABC 构 成 的 集合 。 每 一 步 执行 
时 如 琳 能 够 在 压缩 字典 中 找到 匹配 串 ， 则 输出 匹配 信息 ; 否则， 输出 
源 信息 。 执 行 第 1 步 时 ， 压 缩 子 典 为 空 ， 输 出 字符 ‘A ， 并 将 ‘A 加 入 到 
压缩 了 字典， 执行 第 2 步 时 ， 压 缩 字 典 为 {A}*， 输 出 子 符 虽 ?， 并 将 ‘B’ 加 


入 到 压缩 字典 ; 依次 类 推 。 执 行 到 第 4 步 和 第 6 步 时 发 现 字 符 ABC 之 前 
已 经 出 现 过 ， 和 输出 匹配 的 位 置 和 长 度 。 


表 2-7 字符 串 ABCABCDABC 的 LZ 压缩 过 程 
7 | [ABCABCDABCj* 


LZ 系 列 压 缩 算 法 有 如 下 几 个 问题 ; 


1) 如 何 区 分 匹配 信息 和 源 信 息 ?” 通用 的 解决 方法 是 额外 使 用 一 个 位 
(bit) 来 区 分 压缩 信息 里 面 的 源 信息 和 匹配 信息 。 


2) 需要 使 用 多 少 个 字 市 表示 匹配 信息 ? 记 杂 重复 信息 的 匹配 信息 包含 
两 项 ， 一 个 是 匹配 串 的 相对 位 置 ， 男 一 个 是 匹配 的 长 度 。 例 如 ， 可 以 
采用 固定 的 两 个 字 市 来 表示 匹配 信息 ， 其 中 ，1 位 用 来 区 分 源 信息 和 匹 
配 信息 ，11 位 表示 匹配 位 置 ，4 位 表示 匹配 长 度 。 这 样 ， 压 缩 算 法 文 持 
的 最 大 数据 窗口 为 211=2048 字 闻 ， 文 持 重 复种 的 最 大 长 度 为 24=16 字 

节 。 当 然 ， 也 可 以 采用 变 长 的 方式 表示 匹配 信息 。 


3) 如 何 快速 查找 最 长 匹配 串 ? 最 容易 想到 的 做 法 是 把 字符 串 的 所 有 子 
串 都 存放 到 一 张 哈 希 表 中 ， 表 2-7 中 第 4 步 执 行 前 蛤 布 表 中 包含 ABC 的 


所 有 子 串 ， 即 A、AB、BC、ABC。 这 种 做 法 的 运行 效率 很 低 ， 实 际 的 
做 法 往往 会 做 一 些 改进 。 例 如 ， 哈 希 表 中 只 保存 所 有 长 度 为 3 的 子 串 ， 
如 果 在 数据 字典 中 找到 匹配 串 ， 即 前 3 个 字 节 相同 ， 接 着 再 往 后 顺序 志 
历 找 出 最 长 匹配 。 


3.BMDiff 与 Zippy 


在 Google 的 Bigtable 系 统 中 ， 设 计 了 BMDiff 和 Zippy 两 种 压缩 算法 。 
BMDiff 和 Zippy (也 称 为 Snappy) 也 属于 LZ 系 列 ， 相 比 传统 的 LZW 或 
者 Gzip， 这 两 种 算法 的 压缩 比 不 算 高 ， 但 是 处 理 速度 非常 快 。 如 表 2-8 
所 示 ，Zippy 和 BMDi 的 压缩 /解压 缩 速 度 是 Gzip 算法 的 5 一 10 倍 。 


表 2-8 各 种 压缩 算法 对 比 


算 去 解压 缩 速度 
Gzip 118MB/s 
LZO 410MB/s 
Zippy 409MB/S 


1000MB/s 


相 比 原始 的 LZ77，Zippy 实 现时 主要 做 了 如 下 改进 : 


1) 压缩 字典 中 只 保存 所 有 长 度 为 4 的 子囊 ， 只 有 重复 匹配 的 长 度 大 于 
等 于 4， 才 输出 匹配 信息 ; 否则 ， 输 出 源 信息 。 男 外 ，Zippy 算 法 中 的 
压缩 字典 只 保存 最 后 一 个 长 度 等 于 4 的 子 串 的 位 置 ， 以 
ABCDEABCDABCDE 为 例 ，Zippy 算 法 的 过 程 参见 表 2-9。 


表 2-9 Google Zippy 压缩 算法 


了 CE 
1 ABCDEABCDABCDE | A 
: 

CDEABCDABCDE | 要 | C 
一 ee | ， 


Dilic|1i 一 | 下 nm | 上 上 
I > 
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户 入 
已 

[ea ) 
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Zippy 算 法 执行 完 第 4 步 后 ， 发 现 “ABCD” 出 现 过 ， 于 是 在 压缩 字典 中 记 
录 “ABCD” 第 一 次 出 现 的 位 置 ， 即 位 置 0。 执行 到 第 6 步 时 发 现 ABCD 之 
前 出 现 过 ， 输 出 匹配 信息 ， 同 时 将 数据 字典 中 记录 的 ABCD 的 位 置 更 新 
为 第 二 个 ABCD 的 位 置 ， 即 位 置 5;， 执行 到 第 7 步 时 ， 虽 然 ABCDE 之 前 
都 出 现 过 ， 但 由 于 数据 字典 中 记录 的 是 第 二 个 ABCD 的 位 置 ， 因 此 ， 重 
复 串 为 ABCD， 而 不 是 理想 的 ABCDE。Zippy 的 这 种 实现 方式 牺牲 了 压 
缩 比 ， 但 是 提升 了 性 能 


2) Zippy 内 部 将 数据 划分 为 一 个 一 个 长 度 为 32KB 的 数据 块 ， 每 个 数据 
块 分 别 压缩 ， 多 个 数据 块 之 间 没 有 联系 ， 因 此 ， 只 需要 两 个 字 方 ( 确 
切 地 说 ，15 个 位 ) 就 可 以 表示 匹配 串 的 相对 位 置 。 另 外 ，Zippy 内 部 还 
对 匹配 信息 的 表示 进行 了 精心 的 设计 ， 采 用 变 长 的 表示 方法 。 如 果 匹 
配 长 度 小 于 12 个 字 记 (由 于 前 面 4 个 字 市 总 是 相同 ， 所 以 4<= 匹 配 长 度 
<12， 可 以 通过 3 个 位 来 表示 ) 且 匹 配 位 置 小 于 2048， 则 使 用 两 个 字 市 
表示 ; 否则 ， 使 用 更 多 的 字 节 表示。 总 而 言 之 ，Zippy 对 匹配 信息 的 编 


码 和 实现 都 非常 精妙 ， 感 兴趣 的 读者 可 以 阅读 开源 的 Snappy 项 目的 源 
代码 。 


相 比 Zippy,BMDiff 算 法 实现 显得 更 为 激进 。BMDiff 算 法 将 待 压缩 数据 
拆 分 为 长 度 为 b (默认 情况 下 b=32) 的 小 段 0......b-1，b......2b-1， 
2b..….…...3b-1， 以 此 类 推 。BMDiff 的 字典 中 保存 了 每 个 小 段 的 哈 希 值 ， 
因此 ， 长 度 为 N 的 字符 串 需要 的 哈 希 表 大 小 为 Nb。 与 Zippy 算 法 不 同 的 
是 ，BMDiff 算 法 并 没有 保存 每 个 长 度 为 b 的 子 串 的 哈 希 值 ， 这 种 方式 市 
来 的 问题 是 ， 某 些 重复 长 度 超过 b 的 子 串 可 能 无 法 被 压缩 。 例 如 ， 待 压 
缩 字 符 串 为 EABCDABCD,b=4， 字 典 中 保存 了 EABC 和 DABC 两 个 子 
串 ， 昌 然 ABCD 重 复出 现 了 两 次 ， 但 无 法 被 压缩 。 然 而 ， 可 以 证 明 ， 只 
要 重复 长 度 超 过 2b-1， 那 么 一 定 能 够 在 字典 中 找到 。 假 如 待 压缩 字符 串 
还 是 EABCDABCD,b=2， 那 么 字典 中 保存 了 EA、BC、DA、BC， 讨 纤 
程序 处 理 第 二 个 BC 的 时 候 ， 发 现 之 前 BC 已 经 出 现 过 ， 因 此 ， 往 前 往 后 
找到 最 长 的 匹配 串 ， 即 ABCD， 并 输出 相应 的 匹配 信息 。BMDIiff 适 合 
压缩 重复 度 很 高 的 速度 ， 例 如 网 页 ，Google 的 Bigtable 系 统 中 实现 了 列 
存储 ， 相 同 列 的 数据 存放 到 一 起 ， 重 复 度 很 高 。 


有 


I 


2.6.2 列 式 存储 


传统 的 行 式 数据 库 将 一 个 个 完整 的 数据 行 存储 在 数据 页 中 。 如 果 处 理 
查询 时 需要 用 到 大 部 分 的 数据 列 ， 这 种 方式 在 磁盘 IO 上 有 是 比 较 高 效 


的 。 一 般 来 说 ，OLTP (Online Transaction Processing， 联 机 事务 处 理 ) 
应 用 适合 采用 这 种 方式 。 


一 个 OLAP 类 型 的 查询 可 能 需要 访问 几 百 万 甚至 几 十 亿 个 数据 行 ， 且 该 
查询 往往 只 关心 少数 几 个 数据 列 。 例 如 ， 碍 询 今 年 销量 最 高 的 前 20 个 

商品 ， 这 个 查询 只 关心 三 个 数据 列 : 时 间 (date) 、 商 品 (item) 以 及 
销售 量 (sales amount) 。 商品 的 其 他 数据 列 ， 例 如 商品 URL、 商品 描 

述 、 商 品 所 属 店铺 ， 等 等 ， 对 这 个 查询 都 是 没有 意义 的 。 


如 图 2-11 所 示 ， 列 式 数 据 库 是 将 同一 个 数据 列 的 各 个 值 存放 在 一 起 。 搬 
入 某 个 数据 行 时 ， 该 行 的 各 个 数据 列 的 值 也 会 存放 到 不 同 的 地 方 。 上 
例 中 列 式 数据 库 只 需要 读 取 存储 着 “时 间 、 商 品 、 销 量 ” 的 数据 列 ， 而 
行 式 数据 库 需 要 读 取 所 有 的 数据 列 。 因 此 ， 列 式 数 据 库 大 大 地 提高 
OLAP 大 数据 量 查询 的 效率 。 当 然 ， 列 式 数 据 库 不 是 万 能 的 ， 每 次 读 取 
某 个 数据 行 时 ， 需 要 分 别 从 不 同 的 地 方 读 取 各 个 数据 列 的 值 ， 然 后 合 
并 在 一 起 形成 数据 行 。 因 此 ， 如 采 每 次 查询 涉及 的 数据 量 较 小 或 者 大 
部 分 查询 都 需要 整 行 的 数据 ， 列 式 数据 库 并 不 适用 。 


很 多 列 式 数据 库 还 支持 列 组 (column group,Bigtable 系 统 中 称 为 locality 
group) ， 即 将 多 个 经 常 一 起 访问 的 数据 列 的 各 个 值 存放 在 一 起 。 如果 
读 取 的 数据 列 属于 相同 的 列 组 ， 列 式 数 据 库 可 以 从 相同 的 地 方 一 次 性 
读 取 多 个 数据 列 的 值 ， 避 免 了 多 个 数据 列 的 合并 。 列 组 是 一 种 行列 混 
合 存储 模式 ， 这 种 模式 能 够 同时 满足 OLIP 和 OLAP 的 查询 需求 。 
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图 2-11 列 式 数 据 库 示 意图 


由 于 同一 个 数据 列 的 数据 重复 度 很 高 ， 因 此 ， 列 式 数 据 库 压缩 时 有 很 
大 的 优势 。 例 如 ，Google Bigtable 列 式 数 据 库 对 网 页 库 压缩 可 以 达到 15 
倍 以 上 的 压缩 率 。 另 外 ， 可 以 针对 列 式 存储 做 专门 的 索引 优化 。 比 
如 ， 性 别 列 只 有 两 个 值 ,“ 男 ”和 “ 女 ”， 可 以 对 这 一 列 建立 位 图 索引 : 


如 图 2-12 所 示 ,“ 男 ”对 应 的 位 图 为 100101， 表 示 第 1、4、6 行 值 
为 “ 男 ”;“ 女 ”对 应 的 位 图 为 011010， 表 示 第 2、3、5 行 值 为 “ 女 *。 如 果 
需要 查找 男性 或 者 女性 的 个 数 ， 只 需要 统计 相应 的 位 图 中 1 出 现 的 次 数 
即 可 。 另 外 ， 建 立 位 图 索引 后 0 和 1 的 重复 度 高 ， 可 以 采用 专门 的 编码 
方式 对 其 进行 压缩 。 


“ 男 ”。100101 


“ 女 ”:， 011010 


图 2-12 位 图 索引 示意 


第 3 章 分 布 式 系统 


水 桶 无 论 有 多 高 ， 其 盛 水 的 高 度 取 决 于 其 中 最 短 的 那 块 木板 ， 这 就 是 
著名 的 “ 木 桶 效应 *”。 架构 设计 之 初 要 求 我 们 能 够 们 算 系 统 的 性 能 从 而 
权衡 不 同 的 设计 方法 。 本 章 首 先 介绍 分 布 式 系统 相关 的 基础 概念 和 性 
能 估算 方法 。 接 着 ， 介 绍 分 布 式 系统 的 基础 理论 知识 ， 包 括 数据 分 
布 、 复 制 、 一 人 致 性 、 容 错 等 。 最 后 ， 介 绍 第 见 的 分 布 式 协 议 。 


分 布 式 系 统 面 临 的 第 一 个 问题 就 是 数据 分 布 ， 即 将 数据 均匀 地 分 布 到 
多 个 存储 节点 。 男 外 ， 为 了 保证 可 靠 性 和 可 用 性 ， 需 要 将 数据 复制 多 
个 副本 ， 这 就 带 来 了 多 个 副本 之 间 的 数据 一 致 性 问题 。 大 规模 分 布 式 
存储 系统 的 重要 目标 束 是 节省 成 本 ， 因 而 只 能 采用 性 价 比较 高 的 PC 服 
务 器 。 这 些 服务 器 性 能 很 好 ， 但 是 故障 率 很 高 ， 要 求 系统 能 够 在 软件 
层面 实现 自动 容错 。 当 存储 入 点 出 现 故 障 时 ， 系 统 能 够 目 动 检测 出 
来 ， 并 将 原 有 的 数据 和 服务 迁移 到 集群 中 其 他 正 间 工作 的 节点 。 


分 布 式 系统 中 有 两 个 重要 的 协议 ， 包 括 Paxos 选 举 协议 以 及 两 阶段 提交 
协议 。Paxos 协 议 用 于 多 个 节点 之 间 达 成 一 致 ， 往 往 用 于 实现 总 控 太 氮 
选举 。 两 阶段 提交 协议 用 于 保证 跨 多 个 节操 操作 的 原子 性 ， 这 些 操作 
要 么 全 部 成 功 ， 要 么 全 部 失败 。 理 解 了 这 两 个 分 布 式 协议 之 后 ， 学 习 
其 他 分 布 式 协议 会 楼 得 相当 容易 。 


3.1 基本 概念 


3.1.1 异常 


在 分 布 式 存储 系统 中 ， 往 往 将 一 侣 服务 天 或 者 服务 右上 运行 的 一 个 进 
程 称 为 一 个 节 感 ， 市 扩 与 让 反之 间 通 过 网 络 互联 。 大 规模 分 布 式 存储 
系统 的 一 个 核心 问题 在 于 目 动容 销 。 然 而 ， 服 务 融 世 点 是 不 可 车 的 ， 
网 络 也 是 不 可 靠 的， 本 市 介绍 系统 运行 过 程 中 可 能 会 遇 到 的 各 种 异 


引发 服务 器 宕 机 的 原因 可 能 是 内 存 错 误 、 服 务 句 停电 等 。 服 务 器 宕 机 
可 能 随时 发 生 ， 当 发 生 宕 机 时 ， 市 点 无 法 正 第 工作 ， 称 为 “不 可 

用 ”(unavailable) 。 服 务 器 重启 后 ， 节 点 将 失去 所 有 的 内 存 信息 。 因 
此 ， 设 计 存 储 系统 时 需要 考虑 如 何 通过 读 取 持久 化 介质 (如 机 械 硬 


盘 ， 固 态 硬 盘 ) 中 的 数据 来 恢复 内 存 信息 ， 从 而 恢复 到 宕 机 前 的 某 个 
一 致 的 状态 。 进程 运 行 过 程 中 也 可 能 随时 因为 core dump 等 原因 退出 ， 
和 服务 器 宕 机 一 样 ， 进 程 重 启 后 也 需要 恢复 内 存 信 息 。 


(2) 网 络 异常 


引发 网 络 异常 的 原因 可 能 是 消息 丢失 、 消 息 乱 序 (如 采用 UDP 方 式 通 
信 ) 或 者 网 络 包 数据 错误 。 有 一 种 特殊 的 网 络 异常 称 为 “网 络 分 区 ”， 
即 集群 的 所 有 节点 被 划分 为 多 个 区 域 ， 每 个 区 域内 部 可 以 正常 通信 ， 
但 是 区 域 之 间 无 法 通信 。 例 如 ， 某 分 布 式 系统 部 署 在 两 个 数据 中 心 ， 
由 于 网 络 调整 ， 导 致 数据 中 心 之 间 无 法 通信 ， 但 是 ， 数 据 中 心 内 部 可 
以 正常 通信 。 


设计 容错 系统 的 一 个 基本 原则 是 : 网 络 永远 是 不 可 靠 的 ， 任 何 一 个 消 
轧 只 有 收 到 对 方 的 回复 后 才 可 以 认为 发 送 成 功 ， 系 统 设计 时 总 是 假设 
网 络 将 会 出 现 异 党 并 采取 相应 的 处 理 模 施 。 


(3) 位 盘 故 障 


人 磁盘 故障 是 一 种 发 生 概 率 很 高 的 异 肖 。 磁 副 故 障 分 为 两 种 情况 ， 磁 组 
损坏 和 磁盘 数据 错误 。 磁 到 损坏 时 ， 将 会 丢失 存储 在 上 面 的 数据 ， 因 
而 ， 分 布 式 存储 系统 需要 考虑 将 数据 存储 到 多 人 台 服 务 器 ， 即 使 其 中 一 
台 服 务 器 磁盘 出 现 故 障 ， 也 能 从 其 他 服务 器 上 恢复 数据 。 对 于 磁盘 数 
据 错 误 ， 往 往 可 以 采用 校 验 和 (checksum) 机 制 来 解决 ， 这 样 的 机 制 


既 可 以 在 操作 系统 层面 实现 ， 又 可 以 在 上 层 的 分 布 式 存储 系统 层面 实 
现 。 


2.“ 超 时 ” 


由 于 网 络 异常 的 存在 ， 分 布 式 存储 系统 中 请 求 结果 存在 “三 态 ” 的 概 
念 。 在 单机 系统 中 ， 只 要 服务 器 没有 发 生 异 常 ， 每 个 画 数 的 执行 结 
是 确定 的 ， 要 么 成 功 ， 要 么 失败 。 然 而 ， 在 分 布 式 系统 中 ， 如 有 果 某 个 
节点 向 另外 一 个 节点 发 起 RPC (Remote Procedure Call) 调用 ， 这 个 
RPC 执 行 的 结果 有 三 种 状态 : “成 功 ”\“ 失 败 ”\“ 超 时 ”( 未 知 状态 ) ， 
也 称 为 分 布 式 存储 系统 的 三 态 。 


图 3-1 给 出 了 RPC 执 行 成 功 但 超时 的 例子 。 服 务 器 (Server) 收 到 并 成 功 
处 理 完成 客户 端 (Client) 的 请 求 ， 但 是 由 于 网 络 异常 或 者 服务 器 宕 
机 ， 客 户 问 没有 收 到 服务 器 并 的 回复 。 此 时 ，RPC 的 执行 结果 为 超 

时 ， 客 户 闹 不 能 刹 单 地 认为 服务 如 站 处 理 失 败 。 


成 功 处 
理 请 求 


成 功 处 
理 请 求 


二 
四 


图 3-1 RPC 执 行 成 功 但 超时 


一 个 更 加 通俗 的 例子 是 2.4.1 节 介绍 的 ATM 取 款 。ATM 取 款 时 ATM 机 有 
时 会 提示 : “无 法 打印 赁 条 ， 是 否 继续 取款 ? ”。 这 是 因为 ATM 机 需要 
和 银行 服务 器 端 通信 ， 二 者 之 间 的 网 络 可 能 出 现 故 障 ， 此 时 ATM 机 发 
往 银行 服务 器 端的 RPC 请 求 如 果 发 生 超 时 ，ATM 机 无 法 确定 RPC 请 求 
成 功 还 是 失败 。 正 常情 况 下 ，ATM 机 会 打印 赁 条 ， 用 于 后 续 与 银行 服 
务 絮 端 对 账 。 如 果 无 法 打印 和 赁 条 ， 存 在 资金 安全 风险 ， 因 此 ，ATM 机 


有 一 个 提示 * 


当 出 现 超时 状态 时 ， 只 能 通过 不 断 读 取 之 前 操作 的 状态 来 验证 RPC 操 
作 走 否 成 功 。 当 然 ， 设 计 分 布 式 存储 系统 时 可 以 将 操作 设计 为 " 需 
等 的， 也 就是 说 ， 操 作 执 行 一 次 与 执行 多 次 的 结果 相同 ， 例 如 ， 禾 盖 


写 殉 是 一 种 币 见 的 需 等 操作 。 如 采 采 用 这 种 设计 ， 当 出 现 失败 和 超时 
时 ， 都 可 以 采用 相同 的 处 理 方式 ， 即 一 直 重 试 直到 成 功 。 


3.1.2 一 致 性 


由 于 异常 的 存在 ， 分 布 式 存储 系统 设计 时 往往 会 将 数据 见 余 存储 多 
份 ， 每 一 份 称 为 一 个 副本 (replica/copy) 。 这 样 ， 当 某 一 个 节点 出 现 
故障 时 ， 可 以 从 其 他 副本 上 读 到 数据 。 可 以 这 么 认为 ， 副 本 是 分 布 式 
存储 系统 容错 技术 的 唯一 手段 。 由 于 多 个 副本 的 存在 ， 如 何 保证 副本 
之 间 的 一 致 性 是 整个 分 布 式 系统 的 理论 核心 。 


可 以 从 两 个 角度 理解 一 致 性 : 第 一 个 角度 是 用 户 ， 或 者 说 是 客户 端 ， 
即 客 户 端 读 写 操作 是 否 符合 某 种 特性 ， 第 二 个 角度 是 存储 系统 ， 即 存 
储 系统 的 多 个 副本 之 间 是 否 一 致 ， 更 新 的 顺序 是 否 相同 ， 等 等 。 


首先 定义 如 下 场景 ， 这 个 场景 包含 三 个 组 成 部 分 : 


e 人 存储 系统 : 存储 系统 可 以 理解 为 一 个 黑 盒 子 ， 它 为 我 们 提供 了 可 用 性 
和 持久 性 的 保证 。 


e 客 户 端 A: 客户 端 A 主 要 实现 从 存储 系统 write 和 read 操 作 。 


e 客 户 端 B 和 客户 端 C: 客户 端 B 和 C 是 独立 于 A， 并 且 B 和 C 也 相互 独立 
的 ， 它 们 同时 也 实现 对 存储 系统 的 write 和 read 操 作 。 


从 客户 端的 角度 来 看 ， 一 致 性 包含 如 下 三 种 情况 : 


e 强 一 致 性 : 假如 A 先 写 入 了 一 个 值 到 存储 系统 ， 存 储 系统 保证 后 续 
A,B，C 的 读 取 操作 都 将 返回 最 新 值 。 当 然 ， 如 采写 入 操作 “超时 ”， 那 
么 成 功 或 者 失败 都 是 可 能 的 ， 客 户 端 A 不 应 该 做 任何 假设 。 


e 弱 一 致 性 : 假如 A 爷 写 入 了 一 个 值 到 存储 系统 ， 存 储 系统 不 能 保证 后 
续 A,B，C 的 读 取 操作 走 否 能 够 读 取 到 最 新 值 。 


e 最 终 一 致 性 : 最 终 一 致 性 是 弱 一 致 性 的 一 种 特例 。 假 如 A 首 移 写 入 一 
个 值 到 存储 系统 ， 存 储 系统 保证 如 采 后 续 没 有 写 操作 更 新 同样 的 值 ， 
A,B，C 的 读 取 操作 “最 终 ” 都 会 读 取 到 A 写 入 的 最 新 值 。“ 最 终 ” 一 任性 有 
一 个 “不 一 致 窗口 ?的 概念 ， 它 特 指 从 A 写 入 值 ， 到 后 续 A,B，C 读 取 到 
最 新 值 的 这 段 时 间 。“ 不 一 致 性 窗口 * 的 大 小 依赖 于 以 下 的 几 个 因素 : 
交互 延迟 ， 系 统 的 负载 ， 以 及 复制 协议 要 求 同 步 的 副本 数 。 


最 终 一 致 性 描述 比较 粗略 ， 其 他 常见 的 变 体 如 下 : 


e 读 写 (Read-your-writes) 一 致 性 : 如 果 客 户 端 A 写 入 了 最 新 的 值 ， 那 
么 A 的 后 续 操 作 都 会 读 取 到 最 新 值 。 但 是 其 他 用 户 (比如 B 或 者 C) 可 
能 要 过 一 会 才能 看 到 。 


e 会 话 (Session) 一 致 性 : 要 求 客户 端 和 存储 系统 交互 的 整个 会 话 期 间 
保证 读 写 一 致 性 。 如 果 原 有 会 话 因为 某 种 原因 失效 而 创建 了 新 的 会 


话 ， 原 有 会 话 和 狐 会 话 之 间 的 操作 不 保证 读 写 一 致 性 。 


e 单 调 读 (Monotonic read) 一 致 性 : 如 果 客 户 端 A 已 经 读 取 了 对 象 的 某 
个 值 ， 那 么 后 续 操作 将 不 会 读 取 到 更 早 的 值 。 


e 单 调 写 (Monotonic write) 一 致 性 : 客户 端 A 的 写 操作 按 顺 序 完 成 ， 
这 就 意味 着 ， 对 于 同一 个 客户 问 的 操作 ， 存 储 系统 的 多 个 副本 需要 按 
照 与 客户 端 相同 的 顺序 完成 。 


从 存储 系统 的 角度 看 ， 一 致 性 主要 包含 如 下 几 个 方面 : 


e 天 本 一 致 性 : 存储 系统 的 多 个 副本 之 间 的 数据 是 否 一 致 ， 不 一 致 的 时 
间 窗 口 等 ; 


e 更 新 顺序 一 致 性 : 存储 系统 的 多 个 副本 之 间 是 否 按照 相同 的 顺序 执行 
更 新 操作 。 


一 般 来 说 ， 存 储 系统 可 以 文 持 强 一 致 性 ， 也 可 以 为 了 性 能 考虑 只 文 持 
最 终 一 致 性 。 从 客户 端的 角度 看 ， 一 般 要 求人 存储 系统 能 够 文 持 读 写 一 
致 性 ， 会 话 一 致 性 ， 单 调 读 ， 单 调 写 等 特性 ， 人 否则 ， 使 用 比较 太 烦 ， 
适用 的 场景 也 比较 有 限 。 


3.1.3 衡量 指标 


评价 分 布 式 存储 系统 有 一 些 芝 用 的 指标 ， 下 面 分 别 介绍 。 


(1) 性 能 


常见 的 性 能 指标 有 : 系统 的 吞吐 能 力 以 及 系统 的 响应 时 间 。 其 中 ， 系 
统 的 吞吐 能 力 指 系统 在 某 一 段 时 间 可 以 处 理 的 请 求 总 数 ， 通 常用 每 秒 
处 理 的 读 操 作 数 (QPS,Query Per Second) 或 者 写 操作 数 
(TPS,Transaction Per Second) 来 衡量 ， 系 统 的 响应 延迟 ， 指 从 某 个 请 
求 发 出 到 接收 到 返回 结果 消耗 的 时 间 ， 通 常用 平均 延 时 或 者 99.9% 以 上 
请 求 的 最 大 延 时 来 衡量 。 这 两 个 指标 往往 是 矛盾 的 ， 追 求 高 吞吐 的 系 
统 ， 往 往 很 难 做 到 低 延 迟 ， 追 求 低 延 迟 的 系统 ， 和 吞吐 量 也 会 受到 限 
制 。 因 此 ， 设 计 系 统 时 需要 权衡 这 两 个 指标 。 


(2) 可 用 性 


系统 的 可 用 性 (availability) 是 指 系 统 在 面 对 各 种 异常 时 可 以 提供 正常 
服务 的 能 力 。 系 统 的 可 用 性 可 以 用 系统 停 服务 的 时 间 与 正常 服务 的 时 
间 的 比例 来 衡量 ， 例 如 某 系统 的 可 用 性 为 4 个 9 (99.99%) ， 相 当 于 系 
统一 年 停 服务 的 时 间 不 能 超过 365x24x60/10000=52.56 分 钟 。 系 统 可 用 
性 往往 体现 了 系统 的 整体 代码 质量 以 及 容错 能 力 。 


(3) 一 致 性 


3.1.2 世 说 明了 系统 的 一 致 性 。 一 般 来 说 ， 越 是 强 的 一 致 性 模型 ， 用 户 
使 用 起 来 越 测 单 。 笔 者 认为 ， 如 果 系 统 部 署 在 同一 个 数据 中 心 ， 只 
系统 设计 合理 ， 在 保证 强 一致 性 的 前 气 下 ， 不 会 对 性 能 和 可 用 性 造成 


太 大 的 影响 。 后 文中 笔者 在 Alibaba 参 与 开发 的 OceanBase 系 统 以 及 
Google 的 分 布 式 存储 系统 都 倾 回 强 一 致 性 。 


(4) 可 扩展 性 


系统 的 可 扩展 性 (scalability) 指 分 布 式 存储 系统 通过 扩展 集群 服务 器 
规模 来 提高 系统 存储 容量 、 计 算 量 和 性 能 的 能 力 。 随 着 业务 的 发 展 ， 
对 改 层 存储 系统 的 性 能 需求 不 断 增加 ， 比 较 好 的 方式 束 是 通过 目 动 增 
加 服务 器 提高 系统 的 能 力 。 理 想 的 分 布 式 存储 系统 实现 了 “线性 可 扩 
展 "， 也 就 是 说 ， 随 着 集群 规模 的 增加 ， 系 统 的 整体 性 能 与 服务 需 数 量 


给 定 一 个 问题 ， 往 往 会 有 多 种 设计 方案 ， 而 方案 评估 的 一 个 重要 指标 
束 古 性 能 ， 如 何在 系统 设计 之 初 们 算 存 储 系统 的 性 能 十 存储 工程 师 的 
必 有 备 技能 。 性 能 分 析 用 来 判断 设计 方案 是 否 存在 上 瓶 绒 点 ， 权 衡 多 种 设 
计 方 案 ， 男 外 ， 性 能 分 析 也 可 作为 后 续 性 能 优化 的 依据 。 性 能 分 析 与 
性 能 优化 是 相对 的 ， 系 统 设计 之 初 通过 性 能 分 析 确 定 设 计 目 标 ， 防 止 
出 现 重 大 的 设计 失误 ， 等 到 系统 试 运行 后 ， 需 要 通过 性 能 优化 方法 找 
出 系统 中 的 瓶 贷 总 并 逐步 消除 ， 使 得 系统 达到 设计 之 初 确定 的 设计 有 目 
标 。 


月 
肯 


CC CC 


合 巴 
有 
合 巴 
有 


性 能 分 析 的 结果 是 不 精确 的 ， 然 而 ， 至 少 可 以 保证 ， 佑 算 的 结果 与 实 
际 值 不 会 相差 一 个 数量 级 。 设 计 之 初 首先 分 析 整 体 架 构 ， 接 着 重点 分 
析 可 能 成 为 瓶 祷 的 单机 模块 。 系 统 中 的 资源 《CPU、 内 存 、 磁 盘 、 网 
络 ) 是 有 限 的 ， 性 能 分 析 就 是 需要 找 出 可 能 出 现 的 资源 瓶颈 。 本 蔬 通 
过 几 个 实例 说 明 性 能 分 析 方 法 。 


1. 生 成 一 张 有 30 张 缩 略图 (假设 图 片 原始 大 小 为 256KB) 的 页 面 需要 多 
少时 间 ? 


e 方 案 1: 顺序 操作 ， 每 次 先 从 磁盘 中 读 取 图 片 ， 再 执行 生成 缩 略 图 操 
作 ， 执 行 时 间 为 ，30x10ms (磁盘 随机 读 取 时 间 ) +30x256K/30MB/s 
(假设 缩 略 图 生成 速度 为 30MB/s) =560ms 


e 方 案 2: 并 行 操作 ， 一 次 性 发 送 30 个 请 求 ， 每 个 请 求 读 取 一 张 图 片 并 
生成 缩 略图 ， 执 行 时 间 为 : 10ms+256K/300MB/s=18ms 


当然 ， 系 统 实际 运行 的 时 候 可 能 有 缓存 以 及 其 他 因素 的 干扰 ， 这 些 因 


素 在 性 能 估算 阶段 可 以 爷 不 考虑 ， 催 单 地 将 佑 算 结 果 乘 以 一 个 系数 即 
为 实际 值 。 


2.1GB 的 4 字 节 整数 ， 执 行 一 次 快速 排序 需要 多 少时 间 ? 


Google 的 Jeff Dean 提 出 了 一 种 排序 性 能 分 析 方 法 : 排序 时 间 = 比 较 时 间 
(分 文 预测 错误 ) + 内 存 访问 时 间 。 人 快速 排序 过 程 中 会 发 生 大 量 的 分 文 


预测 错误 ， 所 以 比较 次 数 为 228xlog (228) x233， 其 中 ， 约 1/2 的 比较 
会 发 生 分 文 预 测 错误 ， 所 以 比较 时 间 为 2x233x5ns=21s， 另 外 ， 快 速 
排序 每 次 分 割 操作 都 需要 扫描 一 过 内 存 ， 假 设 内 存 顺 序 访问 性 能 大 
4GB/s， 所 以 内 存 访问 时 间 为 28x1GB/4GB=7s。 因 此 ， 单 线程 排序 1GB 
4 字 世 整数 总 时 间 约 为 28s。 


3.Bigtable 系 统 性 能 分 析 


Bigtable 征 Google 的 分 布 式 表 格 系统 ， 它 的 优势 是 可 扩展 性 好 ， 可 随时 
增加 或 者 减少 集群 中 的 服务 器 ， 但 文 持 的 功能 有 限 ， 文 持 的 操作 主要 
包 汪 


e 单 行 操作 : 基于 主键 的 随机 读 取 ， 插 入 ， 更 新 ， 删 除 (CRUD) 操 
作 ; 


e 多 行 扫 摘 : 扫 摘 一 段 主 键 范围 内 的 数据 。Bigtable 中 每 行 包括 多 个 
列 ， 每 一 行 的 某 一 列 对 应 一 个 数据 单元 ， 每 个 数据 单元 包括 多 个 版 
本 ， 可 以 按照 列 名 或 者 版 本 对 扫 摘 结 采 进 行 过 滤 。 


假设 某 类 Bigtable 系 统 的 总 体 设计 中 给 出 的 性 能 指标 为 : 


e 系 统 配置 : 同一 个 机 架 下 40 台 服务 器 〈8 核 ，24GB 内 存 ，10 路 15000 
转 SATA 硬 盘 ) : 


e 表 格 : 每 行 数据 I1KB，64KB 一 个 数据 块 ， 不 压缩 。 


a) 随机 读 取 (缓存 不 命中 ) : 1KB/itemx300iteny/s=300KB/s 


Bigtable 系 统 中 每 次 随机 读 取 需要 首先 从 GFS 中 读 取 一 个 64KB 的 数据 
块 ， 经 过 CPU 处 理 后 返回 用 户 一 行 数据 (大 小 为 IKB) 。 因 此 ， 性 能 受 
限于 GFS 中 ChunkServer (GFS 系 统 中 的 工作 节点 ) 的 磁 副 IOPS 以 及 
Bigtable Tablet Server (Bigtable 系 统 中 的 工作 节点 ) 的 网 络 带宽 。 先 看 
底层 的 GFS， 每 台 机 器 拥有 10 块 SATA 盘 ， 每 块 SATA 盘 的 IOPS 约 为 
100， 因 此 ， 每 台 机 右 的 IOPS 理 论 值 约 为 1000， 考 虑 到 负载 均衡 等 因 
素 ， 将 随机 读 取 的 QPS 设 计 目标 定 为 300， 保 留 一 定 的 余 量 。 另 外 ， 
台 机 器 每 秒 从 GFS 中 读 取 的 数据 量 为 300x64KB=19.2MB， 由 于 所 有 的 
服务 器 分 布 在 同一 个 机 架 下 ， 网 络 不 会 成 为 瓶颈 。 


b) 随机 读 取 (内 存 表 ) : 1KB/itemx20000items/s=20MB/s 


Bigtable 中 文 持 内 存 表 ， 内 存 表 的 数据 全 部 加 载 到 内 存 中 ， 读 取 时 不 需 
要 读 取 底 层 的 GFS。 随 机 读 取 内 存 表 的 性 能 受 限 于 CPU 以 及 网 络 ， 内 存 
型 服务 的 QPS 一 般 在 10W， 由 于 网 络 发 送 小 数据 有 较 多 overhead 且 
Bigtable 内 存 操作 有 较 多 的 CPU 开销 ， 保 守 估 计 每 个 节点 的 QPS 为 
20000， 客 户 端 和 Tablet Server 之 间 的 网 络 流量 为 20MB/s。 


c) 随机 写 /顺序 写 : 1KB/itemx8000item/s=8MB/s 


Bigtable 中 随机 写 和 顺序 写 的 性 能 是 差不多 的 ， 写 入 操作 需要 首先 将 操 
作 日 志 写 入 到 GFS， 接 着 修改 本 地 内 存 。 为 了 提高 性 能 ，Bigtable 实 现 


了 成 组 提示 技术 ， 即 将 很 多 写 操作 凑 成 一 批 〈 比 如 512KB~2MB) 一 
次 性 提交 到 GFS 中 。Bigtable 每 次 写 一 份 数据 需要 在 GFS 系 统 中 重复 写 
入 3 份 到 10 份 ， 当 写 入 速度 达到 8000 QPS， 即 8MB/s 后 Tablet Server 的 网 
络 将 成 为 瓶颈 。 


d) 扫描 : 1KB/itemx30000item/s=30MB/s 


Bigtable 扫 描 操作 一 次 性 从 GFS 中 读 取 大 量 的 数据 〈 比 如 512KB 一 
2MB) ，GFS 的 磁 副 IO 不 会 成 为 瓶 颂 。 男 外 ， 批 量 操作 减少 了 CPU 以 
及 网 络 收发 包 的 开销 ， 扫 描 操作 的 笨 颂 在 于 Tablet Server 读 取 底 层 GFS 
的 带宽 ， 佑 计 为 30MB/s， 对 应 30000 QPS。 


如 果 集 群 规 模 超 过 40 台 ， 不 能 保证 所 有 的 服务 器 在 同一 个 机 架 下 ， 系 
统 设计 以 及 性 能 分 析 都 会 有 所 不 同 。 性 能 分 析 可 能 会 很 复 洒 ， 因 为 不 
同情 况 下 系统 的 瓶颈 点 不 同 ， 有 的 时 候 是 网 络 ， 有 的 时 候 是 磁盘 ， 有 
的 时 候 甚 至 是 机 房 的 交换 机 或 者 CPU， 另 外 ， 负 载 均衡 以 及 其 他 因素 
的 干扰 也 会 使 得 性 能 更 加 难以 量化 。 只 有 理解 存储 系统 的 的 层 设计 和 
实现 ， 并 在 实践 中 不 断 地 练习 ， 性 能 俩 算 才 会 越 来 越 准 。 


3.3 数据 分 布 


分 布 式 系统 区 别 于 传统 单机 系统 在 于 能 够 将 数据 分 布 到 多 个 广 感 ， 并 
在 多 个 节 扩 之 间 实 现 负 载 均衡 。 数 据 分 布 的 方式 主要 有 两 种 ， 一 种 是 
哈 布 分 布 ， 如 一 致 性 哈 厦 ,代表 系统 为 Amazon 的 Dynamo 系 统 ， 男 外 一 


种 方法 是 顺序 分 布 ， 即 每 张 表 格 上 的 数据 按照 主键 整体 有 序 ， 代 表 系 
统 为 Google 的 Bigtable 系 统 。Bigtable 将 一 张大 表 根 据 主 键 切 分 为 有 序 的 
沁 央 ,每 个 有 序 江 围 古 一 个 子 表 % 


将 数据 分 散 到 多 人 台 机 器 后 ， 需 要 尽量 保证 多 人 台 机 器 之 间 的 负载 是 比较 
均衡 的 。 衡 量 机 天 负载 涉及 的 因素 很 多 ， 如 机 喜 Load 值 ，CPU， 内 
存 ， 磁 盘 以 及 网 络 等 资源 使 用 情况 ， 读 写 请 求 数 及 请 求 量 ， 等 等 ， 分 
布 式 存储 系统 需要 能 够 目 动 识别 负载 高 的 节点 ， 当 某 全 机 器 的 负载 较 
高 时 ， 将 它 服 务 的 部 分 数据 迁移 到 其 他 机 器 ， 实 现 目 动 负 载 均 衡 。 


分 布 式 存储 系统 的 一 个 基本 要 求 束 是 透明 性 ， 包 括 数据 分 布 透明 性 ， 
数据 迁移 透明 性 ， 数 据 复制 透明 性 ， 故 障 处 理 透 明 性 。 本 万 介 绍 数据 
分 布 以 及 数据 迁移 相关 的 基础 知识 。 


3.4 复制 


为 了 保证 分 布 式 存 储 系统 的 高 可 靠 和 高 可 用 ， 数 据 在 系统 中 一 般 存 储 
多 个 副本 。 当 某 个 副本 所 在 的 存储 节点 出 现 故 障 时 ， 分 布 式 存储 系统 
能 够 日 动 将 服务 切换 到 其 他 的 副本 ， 从 而 实现 目 动容 错 。 分 布 式 存储 
系统 通过 复制 协议 将 数据 同步 到 多 个 存储 斑点 ， 并 确保 多 个 副本 之 辣 
的 数据 一 致 性 。 


同一 份 数据 的 多 个 副本 中 往往 有 一 个 副本 为 主 副本 (Primary) ， 其 他 
副本 为 备 副本 (Backup) ， 由 主 副 本 将 数据 复制 到 备份 副本 。 复 制 协 


议 分 为 两 种 ， 强 同步 复制 以 及 异步 复制 ， 二 着 的 区 别 在 于 用 户 的 写 请 
求 是 否 需 要 同步 到 备 副 本 才 可 以 返回 成 功 。 假 如 备份 副本 不 止 一 个 ， 
复制 协议 还 会 要 求 写 请 求 至 少 需要 同步 到 几 个 备 副 本 。 当 主 副 本 出 现 
故障 时 ， 分 布 式 存 储 系统 能 够 将 服务 目 动 切换 到 有 某 个 备 副 本 ， 实 现 目 


动容 错 。 


一 致 性 和 可 用 性 是 政 盾 的 ， 强 同步 复制 协议 可 以 保证 主 备 副 本 之 间 的 
一 致 性 ， 但 是 当 备 副本 出 现 故障 时 ， 也 可 能 阻塞 存储 系统 的 正常 写 服 
务 ， 系 统 的 整体 可 用 性 受到 影响 ， 异 步 复制 协议 的 可 用 性 相对 较 好 ， 
但 是 一 致 性 得 不 到 保障 ， 主 副本 出 现 故障 时 还 有 数据 丢失 的 可 能 。 


本 攻 首 先 介绍 间 见 的 数据 复制 协议 ， 接 着 讨论 如 何在 一 致 性 与 可 用 性 
之 间 的 进行 权衡 。 


3.4.1 复制 的 概述 


分 布 式 存储 系统 中 数据 保存 多 个 副本 ， 一 般 来 说 ， 其 中 一 个 副本 为 主 
副本 ， 其 他 副本 为 备 副本 ， 币 见 的 做 法 是 数据 写 入 到 主 副 本 ， 由 主 副 
本 确定 操作 的 顺序 并 复制 到 其 他 副本 。 


如 图 3-4 所 示 ， 客 户 端 将 写 请 求 发 送 给 主 副本 ， 主 副本 将 写 请 求 复 制 到 
其 他 备 副本 ， 常 见 的 做 法 是 同步 操作 日 志 (Commit Log) 。 主 副本 首 
先 将 操作 日 志 同 步 到 备 副 本 ， 备 副本 回放 操作 日 志 ， 完 成 后 通知 主 副 
本 。 接 着 ， 主 副本 修改 本 机 ， 等 到 所 有 的 操作 都 完成 后 再 通知 客户 站 


写成 功 。 图 3-4 中 的 复制 协议 要 求 主 备 同步 成 功 才 可 以 返回 客户 端 写成 
功 ， 这 种 协议 称 为 强 同 步 协议 。 强 同步 协议 提供 了 强 一致 性 ， 但 走 ， 
如 采 备 副本 出 现 问 题 将 阻塞 写 操作 ， 系 统 可 用 性 较 差 。 


假设 所 有 副本 的 个 数 为 N， 且 N>>2， 即 备 副 本 个 数 大 于 1。 那么 ， 实 现 
强 同 步 协议 时 ， 主 副本 可 以 将 操作 日 志 并 发 地 发 给 所 有 备 副 本 并 等 待 
回复 ， 只 要 至 少 1 个 备 副 本 返回 成 功 就 可 以 回复 客户 端 操作 成 功 。 强 同 
步 的 好 处 在 于 如 果 主 副本 出 现 故 障 ， 至 少 有 1 个 备 副 本 拥有 完整 的 数 
据 ， 分 布 式 存 储 系统 可 以 上 自动 地 将 服务 切换 到 最 者 的 备 副 本 而 不 用 担 
心 数据 丢失 的 情况 。 


W1: 写 请 求 发 给 主 副本 R1: 读 请 求 发 送 给 其 中 一 个 副本 
W2: 主 副本 将 写 请 求 同 步 给 备 副本 R2， 将 读 取 结果 返回 客户 端 
W3: 备 副 本 通知 主 副本 同步 成 功 

W4: 主 副本 返回 客户 端 写 成 功 


图 3-4 主 备 复制 协议 


与 强 同 步 对 应 的 复制 方式 是 异步 复制 。 在 异步 模式 下 ， 主 副本 不 需要 
等 待 备 副本 的 回应 ， 只 需要 本 地 修改 成 功 就 可 以 告知 客户 端 写 操作 成 
功 。 另 外 ， 主 副本 通过 异步 机 制 ， 比 如 单独 的 复制 线程 将 客户 端 修改 
操作 推送 到 其 他 副本 。 异 步 复 制 的 好 处 在 于 系统 可 用 性 较 好 ， 但 是 一 
致 性 较 差 ， 如 果 主 副本 发 生 不 可 恢复 故障 ， 可 能 丢失 最 后 一 部 分 更 新 
操作 。 


强 同 步 复 制 和 异步 复制 都 古 将 主 副 本 的 数据 以 菏 种 形式 发 送 到 其 他 副 
本 ， 这 种 复制 协议 称 为 基于 主 副 本 的 复制 协议 (Primary-based 

protocol) 。 这 种 方法 要 求 在 任何 时 刻 只 能 有 一 个 副本 为 主 副 本 ， 由 它 
来 确定 写 操作 之 间 的 顺序 。 如 果 主 副本 出 现 故 障 ， 需 要 选举 一 个 备 副 
本 成 为 新 的 主 副本 ， 这 步 操 作 称 为 选举 ， 经 典 的 选举 协议 为 Paxos 协 


议 ，3.7.2 厄 将 专门 进行 介绍 。 


主 备 副 本 之 间 的 复制 一 般 通 过 操作 日 志 来 实现 。 操 作 日 志 的 原理 很 向 
单 : 为 了 利用 好 磁盘 的 顺序 读 写 特 性 ， 将 客户 端的 写 操作 移 顺 序 写 入 
到 磁 弄 中 ， 然 后 应 用 到 内 存 中 ， 由 于 内 存 是 随机 读 写 设备 ， 可 以 很 容 
易 通 过 各 种 数据 结构 ， 比 如 B+ 树 将 数据 有 效 地 组 织 起 来 。 当 服务 句 宕 
机 重启 时 ， 只 需要 回放 操作 日 志 就 可 以 恢复 内 存 状态 。 为 了 提高 系统 
的 并 发 能 力 ， 系 统 会 积攒 一 定 的 操作 日 志 表 批量 写 入 到 磁盘 中 ， 这 种 
技术 一 般 称 为 成 组 提交 。 


如 采 每 次 服务 器 出 现 故 障 都 需要 回放 所 有 的 操作 日 志 ， 效 率 是 无 法 忍 
受 的 ， 检 查 点 (checkpoint) 正 是 为 了 解决 这 个 问题 。 系 统 定 期 将 内 存 
状态 以 检查 点 文件 的 形式 dump 到 磁盘 中 ， 并 记录 检查 点 时 刻 对 应 的 操 
作 日 志 回 放 点 。 检 查 点 文件 成 功 创建 后 ， 回 放 点 之 前 的 日 志 可 以 被 垃 
圾 回收 ， 以 后 如 采 服 务 器 出 现 故 障 ， 只 需要 回放 检查 点 之 后 的 操作 日 


i 
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除了 基于 主 副本 的 复制 协议 ， 分 布 式 存储 系统 中 还 可 能 使 用 基于 写 多 
个 存储 节点 的 复制 协议 (Replicated-write protocol) 。 比 如 Dynamo 系 统 
中 的 NWR 复 制 协议 ， 其 中 ，N 为 副本 数量 ，W 为 写 操作 的 副本 数 ，R 为 
读 操作 的 副本 数 。NWR 协 议 中 多 个 副本 不 再 区 分 主 和 备 ， 客 户 端 根据 
一 定 的 策略 往 其 中 的 W 个 副本 写 入 数据 ， 读 取 其 中 的 R 个 副本 。 只 
W+R>N， 可 以 保证 读 到 的 副本 中 至 少 有 一 个 包含 了 最 新 的 更 新 。 然 
而 ， 这 种 协议 的 问题 在 于 不 同 副本 的 操作 顺序 可 能 不 一 致 ， 从 多 个 副 
本 读 取 时 可 能 出 现 冲突 。 这 种 方式 在 实际 系统 中 比较 少见 ， 不 建议 使 
用 o 


3.4.2 一 致 性 与 可 用 性 


来 自 Berkerly 的 Eric Brewer 教 授 提 出 了 一 个 著名 的 CAP 理 论 : 一 致 性 
(Consistency) ， 可 用 性 (Availability) 以 及 分 区 可 容忍 性 (Tolerance 
of network Partition) 三 者 不 能 同时 满足 。 笔 者 认为 没有 必要 纠结 CAP 


理论 最 初 的 定义 ， 在 工程 实践 中 ， 可 以 将 C、A、 了 三 者 按 如 下 方式 理 
解 : 


e 一 致 性 : 恋 操 作 总 走 能 读 取 到 之 前 完成 的 写 操作 结 采 ， 满 足 这 个 条 件 
的 系统 称 为 强 一 致 系统 ， 这 里 的 “之 前 "一般 对 同一 个 客户 端 而 言 ; 


e 可 用 性 : 读 写 操作 在 单 台 机 器 发 生 故 障 的 情况 下 仍然 能 够 正常 执行 ， 
而 不 需要 等 得 发 生 故 障 的 机 器 重启 或 者 其 上 的 服务 迁移 到 其 他 机 器 ; 


e 分 区 可 容忍 性 ， 机 器 故障 、 网 络 故障 、 机 房 停电 等 异常 情况 下 仍然 能 
够 满足 一 致 性 和 可 用 性 。 


分 布 式 存储 系统 要 求 能 够 目 动容 错 ， 也 就 是 说， 分 区 可 容忍 性 总 是 需 
要 满足 的 ， 因 此 ， 一 致 性 和 写 操 作 的 可 用 性 不 能 同时 满足 。 


如 朱 采 用 强 同 步 复 制 ， 保 证 了 存储 系统 的 一 致 性 ， 然 而 ， 当 主 备 副 本 
之 间 出 现 网 络 或 者 其 他 故障 时 ， 写 操作 将 被 阻塞 ， 系 统 的 可 用 性 无 法 
得 到 满足 。 如果 采用 异步 复制 ， 保 证 了 存储 系统 的 可 用 性 ， 但 是 无 法 
做 到 强 一 致 性 。 


存储 系统 设计 时 需要 在 一 致 性 和 可 用 性 之 间 权 衡 ， 在 某 些 场景 下 ， 不 
允许 丢失 数据 ， 在 另外 一 些 场景 下 ， 极 小 的 概率 丢失 部 分 数据 时 允许 
的 ， 可 用 性 更 加 重要 。 例 如 ，Oracle 数 据 库 的 DataGuard 复 制 组 件 包含 
三 种 模式 : 


e 最 大 保护 模式 (Maximum Protection) : 即 强 同步 复制 模式 ， 写 操作 
要 求 主 库 先 将 操作 日 志 (数据 库 的 redo/undo 日 志 ) 同步 到 至 少 一 个 备 
库 才 可 以 返回 客户 端 成 功 。 这 种 模式 保证 即使 主 库 出 现 无 法 恢复 的 故 
障 ， 比 如 硬盘 损坏 ， 也 不 会 丢失 数据 。 


e 最 大 性 能 模式 (Maximum Performance) : 即 异步 复制 模式 ， 写 操作 
只 需要 在 主 库 上 执行 成 功 束 可 以 返回 客户 端 成 功 ， 主 库 上 的 后 台 线 程 
会 将 重 做 日 志 通 过 异步 的 方式 复制 到 备 库 。 这 种 方式 剑 证 了 性 能 及 可 
用 性 ,但 是 可 能 丢失 数据 。 


e 最 大 可 用 性 模式 (Maximum Availability) : 上 述 两 种 模式 的 扩 袁 。 正 
常情 况 下 相当 于 最 大 保护 模式 ， 如 果 主 备 之 间 的 网 络 出 现 故障 ， 切 换 
为 最 大 性 能 模式 。 这 种 模式 在 一 致 性 和 可 用 性 之 间 做 了 一 个 很 好 的 权 
衡 ， 推 荐 大 家 在 设计 存储 系统 时 使 用 。 


3.5 容错 


随 着 集群 规模 变 得 越 来 越 大 ， 故 障 发 生 的 概率 也 越 来 越 大 ， 大 规模 集 
群 每 天 都 有 故障 发 生 。 容 错 是 分 布 式 存储 系统 设计 的 重要 目标 ， 只 有 
实现 了 自动 化 容错 ， 才 能 减少 人 工 运 维 成 本 ， 实 现 分 布 式 存储 的 规模 


效应 。 


单 台 服 务 器 故障 的 概率 古 不 高 的 ， 然 而 ， 只 要 集群 的 规模 足够 大 ， 每 
天 都 可 能 有 机 器 故障 发 生 ， 系 统 需要 能 够 自动 处 理 。 首 先 ， 分 布 式 存 


储 系 统 需 要 能 够 检测 到 机 器 故障 ， 在 分 布 式 系 统 中 ， 故 障 检测 往往 通 
过 租约 (Lease) 协议 实现 。 接 着 ， 需 要 能 够 将 服务 复制 或 者 迁移 到 集 
群 中 的 其 他 正常 服务 的 存储 入 点 。 


本 市 首先 介绍 Google 菏 数据 中 心 发 生 的 故障 ， 接 大 讨论 分 布 式 系 统 中 
的 故障 检测 以 及 恢复 方法 。 


3.5.1 常见 故障 


来 目 Google 的 Jeff Dean 在 LADIS 2009 报 告 中 介绍 了 Google 某 数据 中 心 
第 一 年 运行 发 生 的 故障 数据 ， 如 表 3-1 所 示 。 


表 3-1 Google 某 数据 中 心 第 一 年 运行 故障 


EE PEE 


0.5 数据 中 心 过 热 5 分 钟 之 内 大 部 分 机 带 断 电 ， 一 到 两 天 恢复 

1 配 电 装置 (PDU ) 故障 大 约 500 到 1000 台 机 器 瞬间 下 线 ，6 小 时 恢复 
机 架 调 整 大 量 告警 ，S$00~1000 台 宙 器 断 电 ，6 小 时 恢复 

1 网 络 重新 布线 大 约 5% 机 带 下 线 超 过 两 天 

20 40 到 80 台 机 器 阴间 下 线 ，1 到 6 小 时 恢复 


5 机 架 不 稳定 40 到 80 台 机 器 发 生 50% 丢 包 
12 路 由 顺 重 启 DNS 和 对 外 虚 卫 服务 失效 约 几 分 钟 


( 续 ) 
发 生 频 率 故障 类 型 影响 范围 
3 路 由 天 故障 需要 立即 切换 流量 ,持续 约 1 小 时 


几 十 DNS 故障 持续 约 30 秒 


1000 单机 故障 机 带 无 法 提供 服务 


几 千 硬盘 故障 人 硬盘 数据 丢失 


从 表 3-1 可 以 看 出 ， 单 机 故障 和 人 磁盘 故障 发 生 概率 最 高 ， 几 乎 每 天 都 有 
多 起 事故 ， 系 统 设计 首 移 需 要 对 单 台 服务 器 故障 进行 容错 处 理 。 一 般 
来 说 ,分 布 式 存储 系统 会 保存 多 份 数 据 ， 当 其 中 一 份 数 据 所 在 服务 右 
发 生 故 障 时 ， 能 通过 其 他 副本 继续 提供 服务 。 另 外 ， 机 织 故 障 发 生 的 
概率 相对 也 是 比较 高 的 ， 需 要 避免 将 数据 的 所 有 副本 都 分 布 在 同一 个 
机 架 内 。 最 后 ， 还 可 能 出 现 磁盘 啊 应 慢 ， 内 存 错误 ， 机 器 配置 错误 ， 
数据 中 心 之 间 网 路 连接 不 稳定 ， 等 等 。 


3.5.2 故障 检测 


容错 处 理 的 第 一 步 是 故障 检测 ， 心 跳 是 一 种 很 自然 的 想法 。 假 设 总 控 

机 A 需 要 确认 工作 机 B 是 否 发 生 故 障 ， 那 么 总 控 机 A 每 隔 一 段 时 间 ， 比 
如 1 秒 ， 辣 工作 机 B 发 送 一 个 心跳 包 。 如 末 一 切 正 第 ， 机 絮 B 将 啊 应 机 器 
A 的 心跳 包 ; 否则 ， 机 器 A 重 试 一 定 次 数 后 认为 机 器 B 发 生 了 政 障 。 然 
而 ， 机 器 A 收 不 到 机 器 B 的 心跳 并 不 能 确保 机 器 B 发 生疏 障 并 停止 了 服 
务 ， 在 系统 运行 过 程 中 ， 可 能 发 生 各 种 错误 ， 比 如 机 器 A 与 机 器 B 之 间 
网 络 发生 问 题 ， 机 器 B 过 于 爱 忙 导致 无 法 啊 应 机 器 A 的 心跳 包 。 由 于 机 
器 B 发 生 故 障 后 ， 往 往 需要 将 它 上 面 的 服务 迁移 到 集群 中 的 其 他 服务 

器 ， 为 了 保证 强 一 任性 ， 需 要 确保 机 器 B 不 再 提供 服务 ， 否 则 将 出 现 多 
台 上 服务 右 同 时 服务 同一 份 数据 而 导致 数据 不 一 致 的 情况 。 


这 里 的 问题 是 机 器 A 和 机 器 B 之 间 需 要 对 “机 融 B 是 否 应 该 被 认为 发 生 故 
障 且 停止 服务 ?达成 一 致 ，Fisher 指 出 ， 腊 步 网络 中 的 多 人 台 机 器 无 法 达 


成 一 致 。 当然 ， 在 实践 中 ， 由 于 机 右 之 间 会 进行 时 钟 同步 ， 我 们 总 是 
假设 A 和 B 两 台 机 器 的 本 地 时 钟 相差 不 大 ， 比 如 相差 不 超过 0.5 秒 。 这 
样 ， 我 们 可 以 通过 租约 (Lease) 机 制 进 行 故障 检测 。 租 约 机 制 就 是 带 
有 超时 时 间 的 一 种 授权 。 假 设 机 器 A 需 要 检测 机 器 B 是 否 发 生 故 障 ， 机 
研 A 可 以 给 机 如 B 发 放 租约 ， 机 严 B 持 有 的 租约 在 有 效 期 内 才 人 允许 提 供 
服务 ， 否 则 主动 停止 服务 。 机 颖 B 的 租约 快要 到 期 的 时 候 向 机 器 A 重新 
申请 租约 。 正 常情 况 下 ， 机 右 B 通 过 不 断 申请 租约 来 延长 有 效 期 ， 当 机 
器 B 出 现 故障 或 者 与 机 器 A 之 间 的 网 络 发 生 故 障 时 ， 机 响 B 的 租约 将 过 
期 ， 从 而 机 器 A 能 够 确保 机 器 B 不 再 提供 服务 ， 机 器 B 的 服务 可 以 被 安 
全 地 迁移 到 其 他 服务 右 。 


需要 注意 的 是 ， 实 现 租约 机 制 时 需要 考虑 一 个 提前 量 。 假 设 机 右 B 的 租 
约 有 效 期 为 10 秒 ， 那 么 机 器 A 需要 加 上 一 个 提前 量 ， 比 如 11 秒 时 ， 才 可 
以 认为 机 器 B 的 租约 过 期 。 这 样 ， 即 使 机 如 A 和 机 了 碍 B 的 时 钟 不 一 致 ， 

只 要 相差 不 会 太 大 ， 痢 可 以 保证 机 妖 B 的 租约 到 期 并 且 已 经 不 再 提供 服 


务 。 


3.5.3 故障 恢复 
当 总 控 机 检测 到 工作 机 发 生 故 障 时 ， 需 要 将 服务 迁移 到 其 他 工作 机 节 
点 。 常 见 的 分 布 式 存储 系统 分 为 两 种 结构 : 单 层 结构 和 双 层 结构 。 大 


部 分 系统 为 单 层 结构 ， 在 系统 中 对 每 个 数据 分 片 维护 多 个 副本 ; 只 有 
类 Bigtable 系 统 为 双 技 结构 ， 将 存储 和 服务 分 为 两 层 ， 存 储 层 对 每 个 数 


据 分 片 维护 多 个 副本 ， 服 务 层 只 有 一 个 副本 提供 服务 。 单 层 结构 和 双 
层 结构 的 故障 恢复 机 制 有 所 不 同 。 


单 层 结构 的 分 布 式 存储 系统 维护 了 多 个 副本 ， 例 如 副本 个 数 为 3， 主 备 
副本 之 间 通 过 操作 日 志 同 步 。 如 图 3-5 所 示 ， 某 单 层 结构 的 分 布 式 存储 
系统 有 3 个 数据 分 片 A、B、C， 每 个 数据 分 片 存储 了 三 个 副本 。 其 中 ， 
A1l，B1，C1 为 主 副 本 ， 分 别 存 储 在 节操 1， 市 扩 2 以 及 三 上 护 3。 假 设 市 
点 1 发 生 故 障 ， 将 被 总 控 节 点 检测 到 ， 总 控 节 点 选择 一 个 最 新 的 副本 ， 
比如 A2 或 者 A3 替 换 A1 成 为 新 的 主 副 本 并 提供 写 服 务 。 世 点 下 线 分 为 两 
种 情况 : 一 种 是 临时 故障 ， 节 点 过 一 段 时 间 将 重新 上 线 ; 另 一 种 情况 
是 是 永久 性 故障 ， 比 如 硬盘 损坏 。 总 控 世 点 一 般 需 要 等 待 一 段 时 间 ， 
比如 1 个 小 时 ， 如 果 之 前 下 线 的 节点 重新 上 线 ， 可 以 认为 是 临时 性 故 
障 ， 否 则 ， 认 为 是 永久 性 故障 。 如 果 发 生 永 和 久 性 故障 ， 需 要 执行 增加 
副本 操作 ， 即 选择 某 个 节点 拷贝 A 的 数据 ， 成 为 A 的 备 副 本 。 


两 层 结 构 的 分 布 式 存储 系统 会 将 所 有 的 数据 持久 化 写 入 压 层 的 分 布 式 
文件 系统 ， 每 个 数据 分 片 同一 时 刻 只 有 一 个 提供 服务 的 市 点 。 如 图 3-5 
所 示 ， 某 双 层 结构 的 分 布 式 存储 系统 有 3 个 数据 分 片 ，A、B 和 C。 它 们 
分 别 被 节点 1， 市 点 2 和 节点 3 所 服务 。 当 市 点 1 发 生 故 障 时 ， 辟 控 季 点 
将 选择 一 个 工作 节点 ， 比 如 节点 2， 加 载 A 的 服务 。 由 于 A 的 所 有 数据 
都 存储 在 共享 的 分 布 式 文件 系统 中 ， 节 点 2 只 需要 从 底层 分 布 式 文件 系 
统 读 取 A 的 数据 并 加 载 到 内 存 中 。 


市 点 故障 会 影响 系统 服务 ， 在 故障 检测 以 及 故障 恢复 的 过 程 中 ， 不 能 
提供 写 服务 及 强 一 致 性 读 服 务 。 信 服务 时 间 包 含 两 个 部 分 ， 故 障 检测 
时 间 以 及 故障 恢复 时 间 。 故 障 检测 时 间 一 般 在 几 秒 到 十 几 秒 ， 和 集群 
规模 密切 相关 ， 集 群 规 模 越 大 ， 故 障 检 测 对 总 控 太 点 造成 的 压力 束 越 
大 ， 故 障 检测 时 间 就 越 长 。 故 障 恢复 时 间 一 般 很 短 ， 单 层 结构 的 备 晶 
本 和 主 副 本 之 间 保 持 实 时 同步 ， 切 换 为 主 副 本 的 时 间 很 短 ; 两 层 结构 
故障 恢复 往往 实现 成 只 需要 将 数据 的 索引 ， 而 不 是 所 有 的 数据 ， 加 载 
到 内 存 中 。 


分 布 式 文件 系统 


单 层 结构 两 层 结构 


图 3-5 故障 恢复 


总 探 节 点 目 身 也 可 能 出 现 故 障 ， 为 了 实现 总 控 世 点 的 高 可 用 性 (High 
Availability) ， 总 控 节 点 的 状态 也 将 实时 同步 到 备 机 ， 当 故障 发 生 时 ， 
可 以 通过 外 部 服务 选举 某 个 备 机 作为 新 的 忌 控 广 点 ， 而 这 个 外 部 服务 
也 必须 是 高 可 用 的 。 为 了 进行 选 主 或 者 维护 系统 中 重要 的 全 局 信息 ， 
可 以 维护 一 套 通过 Paxos 协 议 实现 的 分 布 式 锁 服 务 ， 比 如 Google Chubby 
或 者 它 的 开源 实现 Apache Zookeeper 。 


3.6 可 扩展 性 


通过 数据 分 布 ， 复 制 以 及 容错 等 机 制 ， 能 够 将 分 布 式 存储 系统 部 署 到 
成 千 上 万 台 服 务 器 。 可 扩展 性 的 实现 手段 很 多 ， 如 通过 增加 副本 个 数 
或 者 缓存 提高 读 取 能 力 ， 将 数据 分 片 使 得 每 个 分 片 可 以 被 分 配 到 不 同 
的 工作 节点 以 实现 分 布 式 处 理 ， 把 数据 复制 到 多 个 数据 中 心 ， 等 等 。 


分 布 式 存储 系统 大 多 部 市 有 忌 控 厅 点 ， 很 多 人 会 日 然 地 联想 到 总 控 市 
扩 的 找 开 问 题 ， 认 为 P2P 架 构 更 有 优势 。 人 然而， 事实 却 并 非 如 此 ， 主 流 
的 分 布 式 存储 系统 大 多 市 有 忌 控 三 态 ， 且 能 够 文 持 成 干 上 万 台 的 集群 
规模 。 


另外 ， 传 统 的 数据 库 也 能 够 通过 分 库 分 表 等 方式 对 系统 进行 水 平 扩 
展 ， 当 系统 处 理 能 力 不 足 时 ， 可 以 通过 增加 存储 万 点 来 扩容 。 


那么 ， 如 何 衡 量 分 布 式 存储 系统 的 可 扩展 性 ， 它 与 传统 数据 库 的 可 扩 
展 性 又 有 什么 区 别 ? 可 扩展 性 不 能 简单 地 通过 系统 是 否 为 P2P 架 构 或 者 


征 否 能 够 将 数据 分 布 到 多 个 存储 下 点 来 衡量 ， 而 应 该 综合 考虑 世 点 故 
障 后 的 恢复 时 间 ， 扩 容 的 目 动 化 程度 ， 扩 容 的 灵活 性 等 。 


本 世 首 先 讨 论 总 控 世 点 是 否 会 成 为 性 能 瓶 须 ， 接 着 介绍 传统 数据 库 的 
可 扩展 性 ， 最 后 讨论 同 构 系统 与 异 构 系 统 增 加 市 点 时 的 差别 。 


3.6.1 总 控 节 点 


分 布 式 存储 系统 中 往往 有 一 个 总 控 节 点 用 于 维护 数据 分 布 信息 ， 执 行 
工作 机 管理 ， 数 据 定 位 ， 故 障 检测 和 恢复 ， 负 载 均衡 等 全 局 调度 工 
作 。 通 过 引入 总 控 节 点， 可 以 使 得 系统 的 设计 更 加 简单 ， 并 且 更 加 容 
易 做 到 强 一 致 性 ， 对 用 户 友好 。 那 么 ， 总 控 点 是 人 否 会 成 为 性 能 瓶颈 
呢 ? 


分 为 两 种 情况 : 分 布 式 文件 系统 的 总 探 点 除了 执行 全 局 调度 ， 还 需 
要 维护 文件 系统 目录 树 ， 内 存 容量 可 能 会 率先 成 为 性 能 瓶颈 ， 而 其 他 
分 布 式 存储 系统 的 总 控 节点 只 需要 维护 数据 分 片 的 位 置信 息 ， 一 般 不 
会 成 为 瓶 须 。 另 外 ， 即 使 是 分 布 式 文件 系统 ， 只 要 设计 合理 ， 也 能 够 
扩展 到 几 千 台 服 务 器 。 例 如 ，Google 的 分 布 式 文件 系统 能 够 扩展 到 
8000 台 以 上 的 集群 ， 开 源 的 Hadoop 也 能 够 扩展 到 3000 台 以 上 的 集群 。 
当然 ， 设 计时 需要 减少 总 控 节 点 的 负载 ， 比 如 Google 的 GFS 舍 弃 了 对 小 
文件 的 支持 ， 并 且 把 对 数据 的 读 写 控制 权 下 放 到 工作 机 ChunkServer， 
通过 客户 端 缓存 元 数据 减少 对 总 控 节 点 的 访问 等 。 


如 果 总 探 节 点 成 为 瓶颈 ， 例 如 需要 支持 超过 一 万 台 的 集群 规模 ， 或 者 

需要 文 持 海量 的 小 文件 ， 那 么 ， 可 以 采用 两 级 结构 ， 如 图 3-6 所 示 “。 在 
总 控 机 与 工作 机 之 间 增 加 一 层 元 数据 节点 ， 每 个 元 数据 节点 只 维护 一 

部 分 而 不 是 整个 分 布 式 文件 系统 的 元 数据 。 这 样 ， 总 控 机 也 只 需要 维 

护 元 数据 节点 的 元 数据 ， 不 可 能 成 为 性 能 瓶颈 。 假 设 分 布 式 文件 系统 

(Distributed File System,DFS) 中 有 100 个 元 数据 节点 ， 每 个 元 数据 节 

点 服务 1 亿 个 文件 ， 系 统 总 共 可 以 服务 100 亿 个 文件 。 图 3-6 中 的 DFS 客 

户 端 定位 DFS 工 作 机 时 ， 需 要 首先 访问 DFS 总 控 机 找到 DFS 元 数据 服务 
器 ， 再 通过 元 数据 服务 器 找到 DFS 工 作 机 。 虽 然 看 似 增 加 了 一 次 网 络 请 
求 ， 但 是 客户 端 总 是 能 够 缓存 DFS 总 控 机 上 的 元 数据 ， 因 此 并 不 会 带 来 
额外 的 开销 。 


图 3-6 两 级 元 数据 以 构 


3.6.2 数据 库 扩 容 


数据 库 可 扩展 性 实现 的 手段 包括 : 通过 主 从 复制 提高 系统 的 读 取 能 
力 ， 通 过 垂直 拆 分 和 水 平 拆 分 将 数据 分 布 到 多 个 存储 T 点 ， 通 过 主 从 
复制 将 系统 扩展 到 多 个 数据 中 心 。 当 主 市 点 出 现 故 障 时 ， 可 以 将 服务 
切换 到 从 市 感 ， 男 外 ， 当 数据 库 整 体 服务 能 力 不 足 时 ， 可 以 根据 业务 
的 特点 重新 拆 分 数据 进行 扩容 。 


如 图 3-7 所 示 ， 假 设 数 据 库 中 有 三 张 表格 table1、table2 以 及 table3， 先 按 
照 业 务 将 三 张 表 垂 直 拆 分 到 不 同 的 DB 中 ， 再 将 每 张 表 通 过 哈 希 的 方式 
水 平 拆 分 到 不 同 的 存储 节点 。 每 个 拆 分 后 的 DB 通过 主 从 复制 维护 多 个 
副本 ， 且 人 允许 分 布 到 多 个 数据 中 心 。 如 果 系 统 的 读 取 能 力 不 足 ， 可 以 
通过 增加 副本 的 方式 解决 ， 如 果 系统 的 写 入 能 力 不 足 ， 可 以 根据 业务 
的 特点 重新 拆 分 数据 ， 和 常见 的 做 法 为 双 倍 扩 容 ， 即 将 每 个 分 睛 的 数据 
拆 分 为 两 个 分 片 ， 扩 容 的 过 程 中 需要 迁移 一 半 的 数据 到 新 加 入 的 存储 
节点 。 


tablel 


table2 


table3 


DB 


图 3-7 数据 库 拆 分 示意 图 


传统 的 数据 库 染 构 在 可 扩展 性 上 面临 如 下 问题 : 


e 扩 容 不 够 灵活 。 传 统 数据 库 架 构 一 般 采 用 双 倍 扩容 的 做 法 ， 很 难 做 到 
按 需 扩容 。 假 设 系统 中 已 经 有 16 个 存储 节点 ， 如 果 布 望 将 系统 的 服务 
能 力 提 高 5%， 只 需要 新 增 1 个 而 不 是 16 个 存储 入 点 。 


e 扩 容 不 够 自动 化 。 传 统 数据 库 染 构 扩 容 时 需要 迁移 大 量 的 数据 ， 整 个 
过 程 时 间 较 长 ， 容 易 发 生 异 前 情况 ， 且 数据 划分 的 规则 往往 和 业务 相 
天， 很 难 做 到 目 动 化 。 


e 增 加 副本 时 间 长 。 如 果 某 个 主 世 点 出 现 永久 性 故障 ， 比 如 硬盘 故障 ， 
需要 增加 一 个 副本 ， 整 个 过 程 需 要 拷贝 大 量 的 数据 ， 耗 费 的 时 间 很 
a 


3.7 分 布 式 协议 


分 布 式 系统 涉及 的 协议 很 多 ， 例 如 租约 ， 复 制 协 议 ， 一致 性 协议 ， 其 
中 以 两 阶段 提交 协议 和 Paxos 协 议 最 具有 代表 性 。 两 阶段 提交 协议 用 于 
保证 路 多 个 节点 操作 的 原子 性 ， 也 束 是 说 ， 跨 多 个 下 点 的 操作 雪人 么 在 
所 有 节点 上 全 部 执行 成 功 ， 要 么 全 部 失败 。Paxos 协 议 用 于 确保 多 个 节 
点 对 某 个 投票 〈 例 如 哪个 节点 为 主 节 点 ) 达成 一 致 。 本 节 介 绍 这 两 个 
分 布 式 协议 。 


3.7.1 两 阶段 提交 协议 


两 阶段 提交 协议 (Two-phase Commit，2PC) 经 常用 来 实现 分 布 式 事 
务 ， 在 两 阶段 协议 中 ， 系 统一 般 包含 两 类 市 点 : 一 类 为 协调 者 
(coordinator) ， 通 常 一 个 系统 中 只 有 一 个 ; 另 一 类 为 事务 参与 者 
(participants,cohorts 或 workers) ， 一 般 包含 多 个 。 协 议 中 假设 每 个 节 
点 都 会 记录 操作 日 志 并 持久 化 到 非 易 失 性 存储 介质 ， 即 使 万 点 发 生 故 
障 日 志 也 不 会 丢失 。 顾 名 思 义 ， 两 阶段 提交 协议 由 两 个 阶段 组 成 。 在 
正常 的 执行 过 程 中 ， 这 两 个 阶段 的 执行 过 程 如 下 所 壕 : 


se 阶段 1: 请 求 阶段 (Prepare Phase) 。 在 请 求 阶段 ， 协 调 者 通知 事务 参 
与 人 者 准 备 提 区 或 者 取消 事务 ， 然 后 进入 表决 过 程 。 在 表决 过 程 中 ， 参 
与 者 将 告知 协调 者 自己 的 决策 : 同意 (事务 参与 者 本 地 执行 成 功 ) 或 
者 取消 (事务 参与 者 本 地 执行 失败 ) 。 


e 阶 段 2， 提 交 阶 段 (Commit Phase) 。 在 提交 阶段 ， 协 调 者 将 基于 第 
一 个 阶段 的 投票 结果 进行 决策 : 提交 或 者 取消 。 当 且 仅 当 所 有 的 参与 
者 同意 提交 事务 协调 者 才 通知 所 有 的 参与 者 提交 事务 ， 否 则 协调 者 通 
知 所 有 的 参与 者 取消 事务 。 参 与 者 在 接收 到 协调 者 发 来 的 消息 后 将 执 
行 相应 的 操作 。 


例如 ，A 组 织 B、C 和 D 三 个 人 去 扑 长 城 ， 如果 所 有 人 都 同意 去 扑 长 城 ， 
那么 活动 将 举行 ， 如 采 有 一 人 不 同意 去 假 长 城 ， 那 么 活动 将 取消 。 用 
2PC 算 法 解决 该 问题 的 过 程 如 下 : 


1) 首先 A 将 成 为 该 活动 的 协调 者 ，B、C 和 D 将 成 为 该 活动 的 参与 者 。 


2) 准备 阶段 ，A 发 邮件 给 B、C 和 D， 提 出 下 周三 去 的 山 ， 间 是否 同 

意 。 那 么 此 时 A 需要 等 等 B、C 和 DD 的 回复 。B、C 和 DD 分 别 查看 自己 的 日 
程 安排 表 。B、C 发 现 自己 在 当日 没有 活动 安排 ， 则 发 邮件 告诉 A 他 们 
同意 下 周三 去 爬 长 城 。 由 于 某 种 原因 ，D 昌 天 没有 查看 邮件 。 那 么 此 时 
A、B 和 C 均 需要 等 待 。 到 晚上 的 时 候 ,， DD 发 现 了 A 的 邮件 ， 然 后 查看 日 


程 安排 ， 发 现下 周三 当天 已 经 有 别 的 安排 ， 那 么 D 回 复 A 说 活动 取消 
吧 。 


3) 此 时 A 收 到 了 所 有 活动 参与 者 的 邮件 ， 并 且 人 A 发 现 D 下 周三 不 能 去 抱 
山 。 那 么 A 将 发 邮件 通知 B、C 和 D， 下 周三 爬 长 城 活 动 取消 。 此 时 B、 
C 回 复 A“ 太 可 惜 了 ”，D 回 复 A“ 不 好 意思 ”。 至 此 该 事务 终止 。 


通过 该 例子 可 以 发 现 ，2PC 协 议 存在 明显 的 问题 。 假 如 D 一 直 不 能 回复 
邮件 ， 那 么 A、B 和 C 将 不 得 不 处 于 一 直 等 待 的 状态 。 并 且 B 和 C 所 持 有 
的 资源 一 直 不 能 释放 ， 即 下 周三 不 能 安排 其 他 活动 。 当 然 ，A 可 以 发 邮 
件 告诉 D 如 琳 晚 上 六 点 之 前 不 回复 活动 束 日 动 取 消 ， 通 过 引入 事务 的 起 
时 机 制 防止 资源 一 直 不 能 释放 的 情况 。 更 为 闫 重 的 古 ， 假 如 A 发 完 邮 件 
后 生病 住院 了 ， 即 使 B、C 和 D 都 发 邮件 告诉 A 同意 下 周三 去 的 长 城 ， 如 
果 A 没 有 备份 ， 事 务 将 被 阻塞 ，B、C 和 D 下 周三 都 不 能 安排 其 他 活动 。 


两 阶段 提交 协议 可 能 面临 两 种 故障 : 


e 事 务 参 与 者 发 生 故 障 。 给 每 个 事务 设置 一 个 超时 时 间 ， 如 果 某 个 事务 
参与 者 一 直 不 啊 应 ， 到 达 超 时 时 间 后 整个 事务 失败 。 


e 协 调 者 发 生 故 障 。 协 调 者 需要 将 事务 相关 信息 记录 到 操作 日 志 并 同步 
到 备用 协调 者 ， 假 如 协调 者 发 生 故 障 ， 备 用 协调 者 可 以 接替 它 完 成 后 
续 的 工作 。 如 果 没 有 备用 协调 者 ， 协 调 者 又 发 生 了 永久 性 故障 ， 事 务 
参与 者 将 无 法 完成 事务 而 一 直 等 每 下 去 。 


总 而 言 之 ， 两 阶段 提交 协议 是 阻塞 协议 ， 执 行 过 程 中 需要 锁 住 其 他 更 
新 ， 且 不 能 容错 ， 大 多 数 分 布 式 存储 系统 都 采用 和 敬而远之 的 做 法 ， 放 
弃 对 分 布 式 事务 的 支持 。 


3.7.2 Paxos 协 议 


Paxos 协 议 用 于 解决 多 个 市 点 之 间 的 一 致 性 问题 。 多 个 市 点 之 间 通 过 操 
作 日 志 同 步 数 据 ， 如 果 只 有 一 个 广 扣 为 主 太 扩 ， 那 么 ， 很 容易 确保 多 
个 市 点 之 间 操 作 日 志 的 一 任性 。 考 虑 到 主 市 感 可 能 出 现 故 障 ， 系 统 需 
要 选举 出 新 的 主 节 点 。Paxos 协 议 正 是 用 来 实现 这 个 需求 。 只 要 保证 了 
多 个 市 点 之 间 操 作 日 志 的 一 致 性 ， 束 能 够 在 这 些 广 点 上 构建 高 可 用 的 
全 局 服务 ， 例 如 分 布 式 锁 服 务 ， 全 局 命名 和 配置 服务 等 。 


为 了 实现 高 可 用 性 ， 主 下 点 往往 将 数据 以 操作 日 志 的 形式 同步 到 备 世 
点 。 如 果 主 节点 发 生 故 障 ， 备 节点 会 提议 自己 成 为 主 节 点。 这 里 存在 
的 问题 是 网 络 分 区 的 时 候 ， 可 能 会 存在 多 个 备 节 点 提议 (Proposer， 提 
议 者 ) 自己 成 为 主 节点 。Paxos 协 议 保证 ， 即 使 同时 存在 多 个 
proposer， 也 能 够 保证 所 有 克 点 最 终 达 成 一 致 ， 即 选举 出 唯一 的 主 万 
占 。 


大 多 数 情 况 下 ， 系 统 只 有 一 个 proposer， 他 的 提议 也 总 是 会 很 快 地 被 大 
多 数 节 点 接受 。Paxos 协 议 执 行 步 骤 如 下 : 


1) 批准 (accept) : Proposer 发 送 accept 消 息 要 求 所 有 其 他 节点 
(acceptor， 接 受 者 ) 接受 某 个 提议 值 ，acceptor 可 以 接受 或 者 拒绝 。 


2) 确认 (acknowledge) : 如 果 超 过 一 半 的 acceptor 接 受 ， 意 味 着 提议 
值 已 经 生效 ，proposer 发 送 acknowledge 消 息 通知 所 有 的 acceptor 提 议 生 
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当 出 现 网 络 或 者 其 他 异常 时 ， 系 统 中 可 能 存在 多 个 proposer， 他 们 各 目 
发 起 不 同 的 提议 。 这 里 的 提议 可 以 是 一 个 修改 操作 ， 也 可 以 是 提议 目 
己 成 为 主 世 点 。 如 有 果 proposer 第 一 次 发 起 的 accept 请 求 没有 被 acceptor 中 
的 多 数 派 批准 (例如 与 其 他 proposer 的 提议 冲突 ) ， 那 么 ， 需 要 完整 地 
执行 一 轮 Paxos 协 议 。 过 程 如 下 : 


1) 准备 (prepare) : Proposer 首 先 选 择 一 个 提议 序号 n 给 其 他 的 
acceptorT 点 发 送 prepare 消 息 。Acceptor 收 到 prepare 消 息 后 ， 如 果 提 议 
的 序号 大 于 他 已 经 回复 的 所 有 prepare 消 息 ， 则 acceptor 将 自己 上 次 接受 
的 提议 回复 给 proposer， 并 承诺 不 再 回复 小 于 n 的 提议 。 


2) 批准 (accept) : Proposer 收 到 了 acceptor 中 的 多 数 派 对 prepare 的 回 
复 后 ， 束 进入 批准 阶段 。 如 果 在 之 前 的 prepare 阶 段 acceptor 回 复 了 上 次 
接受 的 提议 ， 那 么 ，proposer 选 择 其 中 序号 最 大 的 提议 值 发 给 acceptor 批 
准 ; 否则 ，proposer 生 成 一 个 新 的 提议 值 发 给 acceptor 批 准 。Acceptor 在 
不 违背 他 之 前 在 prepare 阶 段 的 承诺 的 前 提 下 ， 接 受 这 个 请 求 。 


3) 确认 (acknowledge) : 如 果 超 过 一 半 的 acceptor 接 受 ， 提 议 值 生 
效 。Proposer 发 送 acknowledge 消 息 通知 所 有 的 acceptor 提 议 生 效 。 


Paxos 协 议 需 要 考虑 两 个 问题 : 正确 性 ， 即 只 有 一 个 提议 值 会 生效 ;可 
终止 性 ， 即 最 后 总 会 有 一 个 提议 值 生效 。Paxos 协 议 中 要 求 每 个 生效 的 
提议 被 acceptor 中 的 多 数 尖 接受， 并且 每 个 acceptor 不 会 接受 两 个 不 同 的 
提议 ， 因 此 可 以 保证 正确 性 。Paxos 协 议 并 不 能 够 严格 保证 可 终止 性 。 

但 是 ， 从 Paxos 协 议 的 执行 过 程 可 以 看 出 ， 只 要 超过 一 个 acceptor 接 受 了 
提议 ，proposer 很 快 瑟 会 发 现 ， 并 重新 提议 其 中 序号 最 大 的 提议 值 。 
此 ， 随 大 协议 不 断 运行 ， 它 会 往 “ 某 个 提议 值 补 多 数 派 接受 并 生效 ”这 


一 最 终 目 标 靠 拢 。 


3.7.3 Paxos 与 2PC 


Paxos 协 议和 2PC 协 议 在 分 布 式 系统 中 所 起 的 作用 并 不 相同 。Paxos 协 议 
用 于 保证 同一 个 数据 分 片 的 多 个 副本 之 间 的 数据 一 致 性 。 当 这 些 副本 
分 布 到 不 同 的 数据 中 心 时 ， 这 个 需求 尤其 强烈 。2PC 协 议 用 于 保证 属于 
多 个 数据 分 片上 的 操作 的 原子 性 。 这 些 数 据 分 片 可 能 分 布 在 不 同 的 服 
务 硼 上 ，2PC 协 议 保证 多 台 服 务 瑚 上 的 操作 要 么 全 部 成 功 ， 要 么 全 部 失 
败 。 


Paxos 协 议 有 两 种 用 法 : 一 种 用 法 是 用 它 来 实现 全 局 的 锁 服 务 或 者 命名 
和 配置 服务 ， 例 如 Google Chubby 以 及 Apache Zookeeper。 另 外 一 种 用 


法 是 用 它 来 将 用 户 数据 复制 到 多 个 数据 中 心 ， 例 如 Google Megastore 以 
及 Google Spanner。 


2PC 协 议 最 大 的 缺陷 在 于 无 法 处 理 协调 者 宕 机 问题 。 如 果 协 调 者 宕 机 ， 
那么 ，2PC 协 议 中 的 每 个 参与 者 可 能 都 不 知道 事务 应 该 握 区 还 是 回 洲 ， 
整个 协议 被 阻塞 ， 执 行 过 程 中 申请 的 资源 都 无 法 释放 。 因 此 ， 常 见 的 
做 法 是 将 2PC 和 Paxos 协 议 结合 起 来 ， 通 过 2PC 保 证 多 个 数据 分 厂 上 的 操 
作 的 原子 性 ， 通 过 Paxos 协 议 实现 同一 个 数据 分 片 的 多 个 副本 之 间 的 一 
致 性 。 另 外 ， 通 过 Paxos 协 议 解 决 2PC 协 议 中 协调 者 宕 机 问题 。 当 2PC 协 
议 中 的 协调 者 出 现 故 障 时 ， 通 过 Paxos 协 议 选 举 出 新 的 协调 者 继续 提供 


服务 。 


3.8 跨 机 房 部 署 


在 分 布 式 系统 中 ， 跨 机房 问题 一 直 都 是 老大 难 问题 。 机 房 之 间 的 网 络 
延 时 较 大 ， 且 不 稳定 。 跨 机 房 问 题 主 要 包含 两 个 方面 数据 同步 以 及 
服务 切换 。 跨 机 房 部 署 方 案 有 三 个 :集群 整体 切换 、 单 个 集群 跨 机 
房 、Paxos 克 主 副本 。 下 面 分 别 介绍 。 


1. 集 群 整体 切换 


集群 整体 切换 是 最 为 泗 见 的 方案 。 如 图 3-10 所 示 ， 假 设 某 系 统 部 署 在 两 
个 机 房 : 机 房 1 和 机 房 2。 两 个 机 房 保 持 独 立 ， 每 个 机 房 部 署 单独 的 总 
控 节 点 ， 且 每 个 总 欣 世 点 各 有 一 个 备份 节点 。 当 总 控 世 点 出 现 故障 


时 ， 能 够 自动 将 机 房 内 的 备份 节点 切换 为 总 探 世 点 继续 提供 服务 。 另 
外 ， 两 个 机 房 部 署 了 相同 的 副本 数 ， 例 如 数据 分 片 A 在 机 房 1 存储 的 副 
本 为 A11 和 A12， 在 机 房 2 存 储 的 副本 为 A21 和 A22。 在 某 个 时 刻 ， 机 房 1 
为 主机 房 ， 机 房 2 为 备 机 房 。 


图 3-10 集群 整体 切换 


机 房 之 间 的 数据 同步 方式 可 能 为 强 同 步 或 者 异步 。 如 打 采 用 异步 模 
式 ， 那 么 ， 备 机 房 的 数据 总 是 落后 于 主机 房 。 当 主机 房 整体 出 现 故 障 
时 ， 有 两 种 选择 ， 要 么 将 服务 切换 到 备 机 房 ， 怒 受 数据 丢失 的 风险 ; 
要 么 停止 服务 ， 直 到 主机 房 恢复 为 止 。 因 此 ， 如 果 数 据 同 步 为 异步 ， 


那么 ， 主 备 机 房 切 换 往 往 是 手工 的 ， 多 许 用 户 根据 业务 的 特点 选择 丢 
失 数据 "或 者 停止 服务 "。 


如 朱 采 用 强 同 步 模式 ， 那 么 ， 备 机 房 的 数据 和 主机 房 倚 持 一 致 。 当 主 
机 房 出 现 故 障 时 ， 除 了 手工 切换 ， 还 可 以 采用 目 动 切换 的 方式 ， 即 通 
过 分 布 式 锁 服 务 检 测 主机 房 的 服务 ， 当 主机 房 出 现 故障 时 ， 自 动 将 备 
机 房 切 换 为 主机 房 。 


2. 单 个 集群 跨 机 房 


上 一 种 方案 的 所 有 主 副 本 只 能 同时 存在 于 一 个 机 房 内 ， 另 二 种 方案 是 

将 单个 集群 部 署 到 多 个 机 房 ， 人 允许 不 同 数据 分 厂 的 主 副本 位 于 不 同 的 

机 房 ， 如 图 3-11 所 示 。 每 个 数据 分 片 在 机 房 1 和 机 房 ?， 总 共 包 含 4 个 副 
本 ， 其 中 A1、B1、C1 是 主 副本 ，A1 和 B1 在 机 房 1，C1 在 机 房 2。 整 个 

集群 只 有 一 个 总 控 节 点 ， 它 需要 同 机 房 1 和 机 房 2 的 所 有 工作 节点 保持 

通信 。 当 总 探 节 点 出 现 故 障 时 ， 分 布 式 锁 服 务 将 检测 到 ， 并 将 机 房 2 的 
备份 节点 切换 为 总 控 闻 把。 
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图 3-11 单个 集群 跨 机 房 


如 采 采 用 这 种 部 署 方式 ， 总 控 世 点 在 执行 数据 分 布 时 ， 需 要 考虑 机 房 
言 轧 ， 也 束 是 疯 ， 尽 量 将 同一 个 数据 分 片 的 多 个 副本 分 布 到 多 个 机 
房 ， 从 而 防止 单个 机 房 出 现 故障 而 影响 正常 服务 。 


3.Paxos 选 主 副本 


在 前 两 种 方案 中 ， 总 控 节点 需要 和 工作 市 点 之 间 保 持 租约 (lease) ， 
当 工 作 市 点 出 现 故 障 时 ， 自 动 将 它 上 面 服务 的 主 副本 切换 到 其 他 工作 


十 二 
人 点 。 


如 果 采 用 Paxos 协 议 选 主 副本 ， 那 么 ， 每 个 数据 分 片 的 多 个 副本 构成 一 
个 Paxos 复 制 组 。 如 图 3-12 所 示 ，B1、B2、B3、B4 构 成 一 个 复制 组 ， 
某 一 时 刻 B1 为 复制 组 的 主 副 本 ， 当 B1 出 现 故 障 时 ， 其 他 副本 将 尝试 切 
换 为 主 副本 ，Paxos 协 议 保 证 只 有 一 个 副本 会 成 功 。 这 样 ， 总 控 节 点 与 
工作 节点 之 间 不 再 需要 保持 租约 ， 总 控 节 点 出 现 故 障 也 不 会 对 工作 市 
点 产生 影响 。 


Google 后 续 开 发 的 系统 ， 包 括 Google Megastore 以 及 Spanner， 都 采用 了 
这 种 方式 。 它 的 优点 在 于 能 够 降低 对 总 探 世 点 的 依赖 ， 缺 点 在 于 工程 
复杂 度 太 高 ， 很 难 在 线 下 模拟 所 有 的 异常 情况 。 


Paxos 


复制 组 


图 3-12 Paxos 选 主 副 本 


本 书 由 “ePUBw.COM” 整 理 ，ePUBw.COM 提供 
最 新 最 全 的 优质 电子 书 下 载 ! ! ! 
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本 篇 内 容 

第 4 章 分 布 式 文件 系统 
第 5 章 分 布 式 键 值 系统 
第 6 章 分 布 式 表 格 系统 


第 7 章 分 布 式 数据 库 
第 4 章 分 布 式 文件 系统 


分 布 式 文件 系统 的 主要 功能 有 两 个 :一 个 是 存储 文档 、 图 像 、 视 频 之 
类 的 Blob 类 型 数据 ， 男 外 一 个 是 作为 分 布 式 表格 系统 的 持久 化 层 。 


分 布 式 文件 系统 中 最 为 著名 的 莫 过 于 Google File System (GFS) ， 它 构 
建 在 廉价 的 普通 PC 服务 器 之 上 ， 文 持 自 动容 错 。GFS 内 部 将 大 文件 划 
分 为 大 小 约 为 64MB 的 数据 块 (chunk) ， 并 通过 主 控 服务 器 (Master) 
实现 元 数据 管理 、 副 本 管理 、 自 动 负载 均衡 等 操作 。 其 他 文件 系统 ， 
例如 Taobao File System (TFS) 、Facebook Haystack 或 多 或 少 借鉴 
GFS 的 思路 ， 架 构 上 都 比较 相近 。 


本 章 首 先 重 点 介绍 GFS 的 内 部 实现 机 制 ， 接 着 介绍 TFS 和 Face book 

Haystack 的 内 部 实现 。 最 后 ， 本 章 还 会 简单 介绍 内 容 分 发 网 络 
(Content Delivery Network,CDN) 技术 ， 这 种 技术 能 够 将 图 像 、 视 频 

之 类 的 数据 缓存 在 离 用 户 “ 最 近 ” 的 网 络 市 点 上 ， 从 而 降低 访问 延 时 ， 


生生 带 交 和 
4.1 Google 文 件 系统 


Google 文 件 系 统 (GFS) 是 构建 在 廉价 服务 器 之 上 的 大 型 分 布 式 系统 。 
它 将 服务 器 故障 视 为 正常 现象 ， 通 过 软件 的 方式 目 动 容错 ， 在 你 证 系 
统 可 靠 性 和 可 用 性 的 同时 ， 大 大 降低 系统 的 成 本 。 


GFS 是 Google 分 布 式 存储 的 基石 ， 其 他 存储 系统 ， 如 Google Bigtable、 
Google Megastore、Google Percolator 均 直接 或 者 间接 地 构建 在 GFS 之 
上 。 另 外 ，Google 大 规模 批 处 理 系 统 MapReduce 也 需要 利用 GFS 作 为 海 
量 数据 的 输入 输出 。 


4.1.1 系统 架构 


如 图 4-1 所 示 ，GFS 系 统 的 节点 可 分 为 三 种 角色 : GFS Master ( 主 控 服 
务 器 ) 、GFS ChunkServer (CS， 数 据 块 服务 器 ) 以 及 GFS 客 户 端 。 


(文件 名 ，chunk 索引 ) | GFS 主 控 服务 器 .y /foo/bar 
- 
文件 命名 空间 a chunk2ef0 
区 


( chunk 句柄 ,chunk 位 置 ) 


一 一 > 数据 消息 


一 一 > 控制 消息 


( chunk 句柄 ， 字 节 范 围 ) 

GFS 数据 块 服务 器 
和 se 
Linux 文件 系统 


图 4-1 GFS 整 体 架 构 


GFS 文 件 被 划分 为 固定 大 小 的 数据 块 (chunk) ， 由 主 服务 器 在 创建 时 
分 配 一 个 64 位 全 局 唯一 的 chunk 句 柄 。CS 以 普通 的 Linux 文 件 的 形式 将 
chunk 存 储 在 磁盘 中 。 为 了 保证 可 靠 性 ，chunk 在 不 同 的 机 大 中 复制 多 

份 ， 黑 认为 三 份 
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主 控 服务 器 中 维护 了 系统 的 元 数据 ， 包 括 文件 及 chunk 命 名 空间 、 文 件 
到 chunk 之 间 的 映射 、chunk 位 置信 息 。 它 也 负责 整个 系统 的 全 局 控 
制 ， 如 chunk 租 约 管理 、 垃 圾 回收 无 用 chunk、chunk 复 制 等 。 主 控 服 务 
器 会 定期 与 CS 通过 心跳 的 方式 交换 信息 。 


客户 端 是 GFS 提 供给 应 用 程序 的 访问 接口 ， 它 是 一 组 专用 接口 ， 不 遵循 
POSIX 规 范 ， 以 库 文件 的 形式 提供 。 客 户 端 访问 GFS 时 ， 衣 先 访问 主 控 


服务 器 节点 ， 获 取 与 之 进行 交互 的 CS 信息 ， 然 后 直接 访问 这 些 CS， 完 
成 数据 存 取 工作 。 


需要 注意 的 是 ，GFS 中 的 客户 端 不 缓存 文件 数据 ， 只 缓存 主 控 服 务 器 中 
获取 的 元 数据 ， 这 是 由 GFS 的 应 用 特点 决定 的 。GFS 最 主要 的 应 用 有 两 
个 : MapReduce 与 Bigtable。 对 于 MapReduce,GFS 客 户 端 使 用 方式 为 顺 
序 读 写 ， 没 有 缓存 文件 数据 的 必要 ; 而 Bigtable 作 为 分 布 式 表 格 系统 ， 
内 部 实现 了 一 套 缓 存 机 制 。 另 外 ， 如 何 维护 客户 端 缓存 与 实际 数据 之 
间 的 一 致 性 是 一 个 极其 复杂 的 问题 。 


4.1.2 关键 问题 


1. 租 约 机 制 


GFS 数 据 追 加 以 记录 为 单位 ， 每 个 记录 的 大 小 为 几 十 KB 到 儿 MB 不 等 ， 
如 果 每 次 记录 追加 都 需要 请 求 Master， 那 么 Master 显 然 会 成 为 系统 的 性 
能 瓶 贷 ， 因 此 ，GFS 系 统 中 通过 租约 (lease) 机 制 将 chunk 写 操作 授权 
给 ChunkServer。 拥 有 租约 授权 的 ChunkServe 称 为 主 ChunkServer， 其 他 
副本 所 在 的 ChunkServer 称 为 备 ChunkServer。 租 约 授权 针对 单个 

chunk， 在 租约 有 效 期 内 ， 对 该 chunk 的 写 操作 都 由 主 ChunkServer 负 
责 ， 从 而 减轻 Master 的 负载 。 一 般 来 说 ， 租 约 的 有 效 期 比较 长 ， 比 如 60 
秒 ， 只 要 没有 出 现 异常 ， 主 ChunkServer 可 以 不 断 向 Master 请 求 延 长 租 
约 的 有 效 期 直到 整个 chunk 写 满 。 


假设 chunk A 在 GFS 中 保存 了 三 个 副本 A1、A2、A3， 其 中 ，A1 是 主轴 
本 。 如 果 副 本 A2 所 在 ChunkServer 下 线 后 又 重新 上 线 ， 并 且 在 A2 下 线 的 
过 程 中 ， 副 本 Al1 和 A3 有 更 新 ， 那 么 A2 需 要 被 Master 当 成 垃圾 回收 挤 。 
GFS 通 过 对 每 个 chunk 维 护 一 个 版 本 号 来 解决 ， 每 次 给 chunk 进 行 租约 授 
权 或 者 主 ChunkServer 重 新 延长 租约 有 效 期 时 ，Master 会 将 chunk 的 版 本 
号 加 1。A2 下 线 的 过 程 中 ， 副 本 A1 和 A3 有 更 新 ， 说 明 主 ChunkServer 向 
Mtaster 重 新 申请 租约 并 增加 了 A1 和 A3 的 版 本 号 ， 等 到 A2 重 新 上 线 后 ， 
Mtaster 能 够 发 现 A2 的 版 本 号 太 低 ， 从 而 将 A2 标 记 为 可 删除 的 
chunk,Master 的 垃圾 回收 任务 会 定时 检查 ， 并 通知 ChunkServer 将 A2 回 
收 掉 。 


2 一 致 性 模型 


GFS 主 要 是 为 了 追加 (append) 而 不 是 改写 (overwrite) 而 设计 的 。 一 
方面 是 因为 改写 的 需求 比较 少 ， 或 者 可 以 通过 追加 来 实现 ， 比 如 可 以 
只 使 用 GFS 的 追加 功能 构建 分 布 式 表格 系统 Bigtable; 男 一 方面 是 因为 
追加 的 一 致 性 模型 相 比 改写 要 更 加 简单 有 效 。 考 虑 chunk A 的 三 个 副本 
A1、A2、A3， 有 一 个 改写 操作 修改 了 A1、A2 但 没有 修改 A3， 这 样 ， 
沙 到 副本 A3 的 读 操作 可 能 读 到 不 正确 的 数据 ， 相 应 地 ， 如 果 有 一 个 追 
加 操作 往 A1、A2 上 追加 了 一 个 记录 ,但 是 追加 A3 失 败 ， 那 么 即使 读 操 
作 落 到 副本 A3 也 只 是 读 到 过 期 而 不 是 错误 的 数据 。 


我 们 只 讨论 退 加 的 一 任性 。 如 果 不 发 生 异 第 ， 退 加 成 功 的 记录 在 GFS 的 
各 个 副本 中 征 确 定 并 且 严 格 一 致 的 ;但 是 如 采 出 现 了 有 异 币 ， 可 能 出 现 
某 些 副本 奶 加 成 功 而 某 些 副 本 没有 成 功 的 情况 ， 失 败 的 副本 可 能 会 出 
现 一 些 可 识别 的 填充 (padding) 记录 。GEFS 客 户 端 奶 加 失败 将 重 试 ， 
只 要 返回 用 户 追 加 成 功 ， 说 明 在 所 有 副本 中 都 至 少 奶 加 成 功 了 一 次 。 
当然 ， 可 能 出 现 记录 在 某 些 副 本 中 被 退 加 了 多 次 ， 即 重复 记录 ; 也 可 
能 出 现 一 些 可 识别 的 填充 记录 ， 应 用 层 需要 能 够 处 理 这 些 问题 。 


另外 ， 由 于 GFS 文 持 多 个 客户 端 并 发 退 加 ， 多 个 客户 端 之 间 的 顺序 是 无 
法 保证 的 ， 同 一 个 客户 端 连续 追加 成 功 的 多 个 记录 也 可 能 被 打 断 ， 比 

如 客户 端 先后 追加 成 切记 录 R1 和 R2， 由 于 追加 R1 和 R2 这 两 条 记录 的 过 
程 不 是 原子 的 ， 中 途 可 能 被 其 他 客户 只 打 断 ， 那 么 GFS 的 chunk 中 记录 
的 R1 和 R2 可 能 不 连续 ， 中 间 夹 杂 着 其 他 客户 端 妃 加 的 数据 。 


GFS 的 这 种 一 致 性 模型 是 追求 性 能 导致 的 ， 这 增加 了 应 用 程序 开发 的 难 
度 。 对 于 MapReduce 应 用 ， 由 于 其 批 处 理 特性 ， 可 以 先 将 数据 追加 到 一 
个 临时 文件 ， 在 临时 文件 中 维护 索引 记录 每 个 追加 成 功 的 记录 的 仿 

移 ， 等 到 文件 天 闭 时 一 次 性 将 临时 文件 改名 为 最 终 文件 。 对 于 上 层 的 
Bigtable， 有 两 种 处 理 方式 ， 后 面 将 会 介绍 。 


3. 追 加 流程 


追加 流程 是 GFS 系 统 中 最 为 复杂 的 地 方 ， 而 且 ， 高 效 支持 记录 追加 对 基 
于 GFS 实 现 的 分 布 式 表格 系统 Bigtable 是 至 关 重 要 的 。 如 图 4-2 所 示 ， 追 
加 流程 大 致 如 下 : 


E 控 服务 天 


一 -一 > 控制 流 


-一 一 > 数据 流 


] 


1) 客户 端 向 Master 请 求 chunk 每 个 副本 所 在 的 ChunkServer， 其 中 主 
ChunkServer 持 有 修改 租约 。 如 果 没 有 ChunkServer 持 有 租约 ， 说 明 该 
chunk 最 近 没 有 写 控 作 ，Master 会 发 起 一 个 任务 ， 按 照 一 定 的 策略 将 


chunk 的 租约 授权 给 其 中 一 台 ChunkServer 。 


图 4-2 GFS 追 加 流程 


2) Master 返 回 客户 端 主 副本 和 备 副本 所 在 的 ChunkServer 的 位 置信 息 ， 
客户 端 将 缓存 这 些 信息 供 以 后 使 用 。 如 果 不 出现 故 障 ， 客 户 端 以 后 读 
写 该 chunk 都 不 需要 再 次 请 求 Master。 


3) 客户 端 将 要 奶 加 的 记录 发 送 到 每 一 个 副本 ， 每 一 个 ChunkServer 会 在 
内 部 的 LRU 结 构 中 缓存 这 些 数据 。GFS 中 采用 数据 流 和 控制 流 分 离 的 方 
法 ， 从 而 能 够 基于 网 络 拓扑 结构 更 好 地 调度 数据 流 的 传输 。 


4) 当 所 有 副本 都 确认 收 到 了 数据 ， 客 户 端 发 起 一 个 写 请 求 控制 命令 给 
主 副本 。 由 于 主 副本 可 能 收 到 多 个 客户 端 对 同一 个 chunk 的 并 发 奶 加 操 
作 ， 主 副本 将 确定 这 些 操作 的 顺序 并 写 入 本 地 。 


5) 主 副本 把 写 请 求 提 交 给 所 有 的 备 副 本 。 每 一 个 备 副 本 会 根据 主 副本 
确定 的 顺序 执行 写 操作 。 


6) 备 副 本 成 功 完成 后 应 管 主 副本 。 


7) 主 副本 应 答 客 户 端 ， 如 果 有 副本 发 生 错 误 ， 将 出 现 主 副本 写成 功 但 
苹 某 些 备 副 本 不 成 功 的 情况 ， 客 户 关 将 重 试 。 


GFS 奶 加 流程 有 两 个 特色 : 流水 线 及 分 离 数据 流 与 控制 流 。 流 水 线 操作 
用 来 减少 延 时 。 当 一 个 ChunkServer 接 收 到 一 些 数据 ， 它 束 立 即 开始 转 
发 。 由 于 采用 全 双 工 网 络 ， 江 即 发 送 数 据 并 不 会 降低 接收 数据 的 速 

率 。 擅 开 网 络 阻 窒 ， 传 输 B 个 子 市 到 R 个 副本 的 理想 时 间 古 B/T+RL， 其 


中 T 是 网 络 吞 吐 量 ， 工 是 忆 点 之 间 的 延 时 。 假 设 采用 干 兆 网 络 ， 工 通常 小 
于 lms， 传 输 1MB 数 据 到 多 个 副本 的 时 间 小 于 80ms。 分 离 数据 流 与 控 
制 流 主要 是 为 了 优化 数据 传输 ， 每 一 台 机 器 都 是 把 数据 发 送 给 网 络 折 
扑 图 上 “最 近 ” 的 尚未 收 到 数据 的 数据 。 举 个 例子 ， 假 设 有 三 台 
ChunkServer: S1、S2 和 S3，S1 与 S3 在 同一 个 机 架 上 ，S2 在 另外 一 个 机 
架 上 ， 客 户 端 部 署 在 机 器 S1 上 。 如 果 数 据 先 从 S1 转 发 到 S2， 再 从 S2 转 
发 到 S3， 需 要 经 历 两 次 跨 机 架 数 据 传输 ;， 相 对 地 ， 按 照 GFS 中 的 策 
略 ， 数 据 先 发 送 到 S1， 接 着 从 S1 转 发 到 S3， 最 后 转发 到 S2， 只 需要 一 
次 跨 机 架 数 据 传输 。 


分 离 数据 流 与 控制 流 的 前 提 是 每 次 追加 的 数据 都 比较 大 ， 比 如 
MapReduce 批 处 理 系统 ， 而 且 这 种 分 离 增加 了 追加 流程 的 复杂 度 。 如 果 
采用 传统 的 主 备 复制 方法 ， 追 加 流程 会 在 一 定 程度 上 得 到 简化 ， 如 图 4- 
3 所 示 : 


1) 同 图 4-2 GFS 追 加 流程 : 客户 端 向 Master 请 求 chunk 每 个 副本 所 在 的 


ChunkServer ° 


2) 同 图 4-2 GFS 追 加 流程 ，Master 返 回 客户 端 主 副本 和 备 副 本 所 在 
ChunkServer 的 位 置信 息 。 


3) Client 将 待 追加 数据 发 送 到 主 副本 ， 主 副本 可 能 收 到 多 个 客户 端的 
并 发 追加 请 求 ， 需 要 确定 操作 顺序 ， 并 写 入 本 地 。 


4) 主 副 本 将 数据 通过 流水 线 的 方式 转发 给 所 有 的 备 副 本 。 


5) 每 个 备 副本 收 到 待 追加 的 记录 数据 后 写 入 本 地 ， 所 有 副本 都 在 本 地 
写成 功 并 且 收 到 后 一 个 副本 的 应 答 消 息 时 向 前 一 个 副本 回应 ， 比 如 图 4- 
3 中 备 副 本 A 需 要 等 待 备 副本 B 应 答 成 功 且 本 地 写成 功 后 才 可 以 应 答 主 


E 控 服务 器 


一 一 > 控制 流 


wp 
> 数据 7k 


图 4-3 GFS 追 加 流程 (数据 流 与 控制 流 合并 ) 


6) 主 副本 应 答 客户 端 。 如 果 客 户 端 在 超时 时 间 之 内 没有 收 到 主 副本 的 
应 答 ， 说 明 发 生 了 错误 ， 需 要 重 试 。 


当 伏 ， 实 际 的 追加 流程 远 远 没有 这 么 简单 。 奶 加 的 过 程 中 可 能 出 现 主 

副本 租约 过 期 而 失去 chunk 修 改 操作 的 授权 ， 以 及 主 副本 或 者 备 副 本 所 
在 的 ChunkServer 出 现 故障 ， 等 等 。 由 于 篇 幅 有 限 ， 追 加 流程 的 异常 处 
理 留 作 读 着 思考 。 


4. 容 错 机 制 
(1) Master 容 错 


Master 容 错 与 传统 方法 类 似 ， 通 过 操作 日 志 加 checkpoint 的 方式 进行 ， 
并 且 有 一 台 称 为 “Shadow Master” 的 实时 热 备 。 


Master 上 保存 了 三 种 元 数据 信息 : 


e 命 名 空间 (Name Space) ， 也 就 是 整个 文件 系统 的 目录 结构 以 及 
chunk 基 本 信息 ; 


e 文 件 到 chunk 之 间 的 映射 ; 
echunk 副 本 的 位 置信 息 ， 每 个 chunk 通 党 有 三 个 副本 。 


GFS Master 的 修改 操作 总 是 先 记录 操作 日 志 ， 然 后 修改 内 存 。 当 Master 
发 生 故 障 重启 时 ， 可 以 通过 磁盘 中 的 操作 日 志 恢 复 内 存 数据 结构 。 男 
外 ， 为 了 减少 Master 宕 机 恢复 时 间 ，Master 会 定期 将 内 存 中 的 数据 以 
checkpoint 文 件 的 形式 转 储 到 磁盘 中 ， 从 而 减少 回放 的 日 志 量 。 为 了 进 


一 步 提高 Master 的 可 靠 性 和 可 用 性 ，GFS 中 还 会 执行 实时 热 备 ， 所 有 的 
元 数据 修改 操作 都 必须 保证 发 送 到 实时 热 备 才 算 成 功 。 远 程 的 实时 热 
备 将 实时 接收 Master 发 送 的 操作 日 志 并 在 内 存 中 回放 这 些 元 数据 操作 。 
如 果 Master 宕 机 ， 还 可 以 秒 级 切换 到 实时 备 机 继续 提供 服务 。 为 了 保证 
同一 时 刻 只 有 一 台 Master,GFS 依 赖 Google 内 部 的 Chubby 服 务 进行 选 主 
操作 。 


Master 需 要 持久 化 前 两 种 元 数据 ， 即 命名 空间 及 文件 到 chunk 之 间 的 映 
射 ， 对 于 第 三 种 元 数据 ， 即 chunk 副 本 的 位 置信 息 ，Master 可 以 选择 不 
进行 持久 化 ， 这 是 因为 ChunkServer 维 护 了 这 些 信息 ， 即 使 Master 发 生 
故障 ， 也 可 以 在 重 局 时 通过 ChunkServer 汇 报 来 获取 。 


(2) ChunkServer 容 错 


GFS 采 用 复制 多 个 副本 的 方式 实现 ChunkServer 的 容错 ， 每 个 chunk 有 多 
个 存储 副本 ， 分 别 存储 在 不 同 的 ChunkServer 上 。 对 于 每 个 chunk， 必 须 
将 所 有 的 副本 全 部 写 入 成 功 ， 才 视 为 成 功 写 入 。 如 采 相 天 的 副本 出 现 
丢失 或 不 可 恢复 的 情况 ，Master 目 动 将 副本 复制 到 其 他 ChunkServer， 

从 而 确保 副本 保持 一 定 的 个 数 。 


另外，ChunkServer 会 对 存储 的 数据 维持 校 验 和 。GFS 以 64MB 为 chunk 
大 小 来 划分 文件 ， 每 个 chunk 叉 以 Block 为 单位 进行 划分 ，Block 大 小 为 
64KB， 每 个 Block 对 应 一 个 32 位 的 校 验 和 。 当 读 取 一 个 chunk 副 本 时 ， 


ChunkServer 会 将 读 取 的 数据 和 校 验 和 进行 比较 ， 如 果 不 匹 配 ， 束 会 返 
回 错误 ， 客 户 端 将 选择 其 他 ChunkServer 上 的 副本 。 


4.1.3 Master 设 计 


1.Master 内 存 占 用 


Master 维 护 了 系统 中 的 元 数据 ， 包 括 文件 及 chunk 命 名 空间 、 文 件 到 
chunk 之 间 的 映射 、chunk 副 本 的 位 置信 息 。 其 中 前 两 种 元 数据 需要 持 
久 化 到 磁盘 ，chunk 副 本 的 位 置信 息 不 需要 持久 化 ， 可 以 通过 
ChunkServer 汇 报 获取 。 


内 存 是 Master 的 黎 有 资源 ， 接 下 来 介绍 如 何 估算 Master 的 内 存 使 用 量 。 
chunk 的 元 信息 包括 全 局 唯一 的 ID、 版 本 号 、 每 个 副本 所 在 的 
ChunkServer 编 号 、 引 用 计数 等 。GFS 系 统 中 每 个 chunk 大 小 为 64MB， 
默认 存储 3 份 ， 每 个 chunk 的 元 数据 小 于 64 子 证。 那么 1PB 数 据 的 chunk 
元 信息 大 小 不 超过 1PBx3/64MBx64=3GB“。 另 外 ，Master 对 命名 空间 进 
行 了 压缩 存储 ， 例 如 有 两 个 文件 foo1 和 foo2 都 存放 在 目 

孙 /home/very_long_directory_name/ 中 ， 那 么 目录 名 在 内 存 中 只 需要 存放 
一 次 。 压 缩 存 储 后 ， 每 个 文件 在 文件 命名 空间 的 元 数据 也 不 超过 64 字 
节 ， 由 于 GFS 中 的 文件 一 般 都 是 大 文件 ， 因 此 ， 文 件 命 名 空间 占用 内 存 
不 多 。 这 也 束 说 明了 Master 内 存 容量 不 会 成 为 GFS 的 系统 瓶 贷 。 


2. 人 负载 均衡 


GFS 中 副本 的 分 布 策略 需要 考虑 多 种 因素 ， 如 网 络 拓扑 、 机 织 分 布 、 磁 
盘 利 用 率 等 。 为 了 提高 系统 的 可 用 性 ，GFS 会 避免 将 同一 个 chunk 的 所 
有 副本 都 存放 在 同一 个 机 染 的 情况 。 


系统 中 需要 创建 chunk 副 本 的 情况 有 三 种 : chunk 创 建 、chunk 复 制 (re- 
replication) 以 及 负载 均衡 (rebalancing) 。 


当 Master 创 建 了 一 个 chunk， 它 会 根据 如 下 因素 来 选择 chunk 副 本 的 初始 
位 置 : 1) 新 副本 所 在 的 ChunkServer 的 磁 副 利用 率 低 于 平均 水 平 ，2) 
限制 每 个 Chunk-Server“* 最 近 ” 创 建 的 数量 ，3) 每 个 chunk 的 所 有 副本 不 
能 在 同一 个 机 架 。 第 二 点 容易 忽略 但 却 很 重要 ， 因 为 创建 完 chunk 以 后 
通 肖 需要 马上 写 入 数据 ， 如 采 不 限制 “最 近 ” 创 建 的 数量 ， 当 一 台 空 的 
ChunkServer 上 线 时 ， 由 于 磁盘 利用 率 低 ， 可 能 导致 大 量 的 chunk 有 瞬间 迁 
移 到 这 台 机 器 从 而 将 它 压 垮 。 


当 chunk 的 副本 数量 小 于 一 定 的 数量 后 ，Master 会 尝试 重新 复制 一 个 
chunk 副 本 。 可 能 的 原因 包括 ChunkServer 宕 机 或 者 ChunkServer 报 告 自 
己 的 副本 损坏 ， 或 者 ChunkServer 的 某 个 磁盘 故障 ， 或 者 用 户 动 态 增 加 
了 chunk 的 副本 数 ， 等 等 。 每 个 chunk 复 制 任务 都 有 一 个 优先 级 ， 按 照 
优先 级 从 高 到 低 在 Master 排 队 等 待 执 行 。 例 如 ， 只 有 一 个 副本 的 chunk 
需要 优 匈 复制 。 另 外 ，GEFS 会 提高 所 有 阻塞 客户 端 操作 的 chunk 复 制 任 
务 的 优先 级 ， 例 如 客户 端正 在 往 一 个 只 有 一 个 副本 的 chunk 追 加 数据 ， 


如 采 限 制 至 少 需要 追加 成 功 两 个 副本 ， 那 么 这 个 chunk 复 制 任务 会 阻塞 
客户 端 写 操作 ， 需 要 提高 优先 级 。 


最 后 ，Master 会 定期 扫 摘 当前 副本 的 分 布 情况 ， 如 采 发 现 磁 盘 使 用 量 或 
者 机 器 负载 不 均衡 ， 将 执行 重新 负载 均衡 操作 。 


无 论 是 chunk 创 建 ，chunk 重 独 复 制 ， 还 是 重新 负载 均衡 ， 这 些 操 作 选 
择 chunk 副 本 位 置 的 策略 都 是 相同 的 ， 并 且 和 需要 限制 重新 复制 和 重新 负 
载 均衡 任务 的 拷贝 速度 ， 否 则 可 能 影响 系统 正常 的 读 写 服务 。 


3. 垃 圾 回收 


GFS 采 用 延迟 删除 的 机 制 ， 也 就 是 说 ， 当 删除 文件 后 ，GFS 并 不 要 求 立 
即 归 还 可 用 的 物理 存储 ， 而 是 在 元 数据 中 将 文件 改名 为 一 个 隐藏 的 名 
字 ， 并 且 包 含 一 个 删除 时 间 惟 。Master 定 时 检查 ， 如 果 发 现 文件 删除 超 
过 一 段 时 间 (默认 为 3 天 ， 可 配置 ) ， 那 么 它 会 把 文件 从 内 存 元 数据 中 
删除 ， 以 后 ChunkServer 和 Master 的 心跳 消 轧 中 ， 每 一 个 ChunkServer 都 
将 报告 目 己 的 chunk 集 合 ，Master 会 回复 在 Master 元 数据 中 已 经 不 存在 
的 chunk 人 信息， 这 时 ，ChunkServer 会 释放 这 些 chunk 副 本 。 为 了 减轻 系 
统 的 负载 ， 垃 圾 回收 一 般 在 服务 低 峰 期 执行 ， 比 如 每 天 晚上 凌晨 1:00 开 


始 。 


男 外 ，chunk 副 本 可 能 会 因为 ChunkServer 失 效 期 间 丢 失 了 对 chunk 的 修 
改 操作 而 导致 过 期 。 系 统 对 每 个 chunk 都 维护 了 版 本 号 ， 过 期 的 chunk 


可 以 通过 版 本 号 检测 出 来 。Master 仍 然 通过 正 第 的 垃圾 回收 机 制 来 删除 
过 期 的 副本 。 


4. 快 照 


快照 (Snapshot) 操作 是 对 源 文件 /目录 进行 一 个 “快照 操作， 生成 该 时 
刻 源 文件 /目录 的 一 个 瞬间 状态 存放 于 目标 文件 /目录 中 。GFS 中 使 用 标 
准 的 写 时 复制 机 制 生成 快照 ， 也 就 是 说 , “快照 ?只 是 增加 GFS 中 chunk 
的 引用 计数 ， 表 示 这 个 chunk 被 快照 文件 引用 了 ， 等 到 客户 端 修改 这 个 
chunk 时 ， 才 需要 在 ChunkServer 中 拷贝 chunk 的 数据 生成 新 的 chunk， 后 
续 的 修改 操作 落 到 新 生成 的 chunk 上 。 


为 了 对 某 个 文件 做 快照 ， 首 先 需 要 停止 这 个 文件 的 写 服 务 ， 接 着 增加 
这 个 文件 的 所 有 chunk 的 引用 计数 ， 以 后 修改 这 些 chunk 时 会 拷贝 生成 
新 的 chunk。 对 某 个 文件 执行 快照 的 大 致 步 又 如 下 : 


1) 通过 租约 机 制 收 回 对 文件 的 每 个 chunk 写 权限 ， 停 止 对 文件 的 写 服 


务 ; 


2) Master 捞 贝 文件 名 等 元 数据 生成 一 个 新 的 快照 文件 ; 
3) 对 执行 快照 的 文件 的 所 有 chunk 增 加 引用 计数 。 


例如 ， 对 文件 foo 执 行 快照 操作 生成 foo_backup,foo 在 GFS 中 有 三 个 
chunk: Cl1、C2 和 C3 (简单 起 见 ， 假 设 每 个 chunk 只 有 一 个 副本 ) 。 


Master 首 先 需要 收回 C1、C2 和 C3 的 写 租 约 ， 从 而 保证 文件 foo 处 于 一 致 
的 状态 ， 接 着 Master 复 制 foo 文 件 的 元 数据 用 于 生成 
foo_backup,foo_backup 同 样 指 向 C1、C2 和 和 C3。 快照 前 ，C1、C2 和 C3 只 
被 一 个 文件 foo 引 用 ， 因 此 引用 计数 为 1， 执 行 快照 操作 后 ， 这 些 chunk 
的 引用 计数 增加 为 2。 以 后 客户 端 再 次 向 C3 追 加 数据 时 ，Master 发 现 C3 
的 引用 计数 大 于 1， 通 知 C3 所 在 的 ChunkServer 本 次 拷贝 C3 生成 C3'， 客 
户 端的 追加 操作 也 相应 地 转向 C3' 。 


4.1.4 ChunkServer 设 计 


ChunkServer 管 理 大 小 约 为 64MB 的 chunk， 存 储 的 时 候 需要 保证 chunk 尽 
可 能 均匀 地 分 布 在 不 同 的 磁盘 之 中 ， 需 要 考虑 的 可 能 因素 包括 磁盘 空 
间 、 最 近 新 建 chunk 数 等 。 另 外 ，Linux 文 件 系 统 删 除 64MB 大 文件 消耗 
的 时 间 太 长 且 没 有 必要 ， 因 此 ， 删 除 chunk 时 可 以 只 将 对 应 的 chunk 文 
件 移动 到 每 个 磁盘 的 回收 站 ， 以 后 新 建 chunk 的 时 候 可 以 重用 。 


ChunkServer 是 一 个 似 副 和 网 络 IO 密 集 型 应 用 ， 为 了 最 大 限度 地 发 挥 机 
句 性 能 ， 需 要 能 够 做 到 将 磁盘 和 网 络 操 作 异 步 化 ， 但 这 会 增加 代码 实 
现 的 难度 。 


4.1.5 讨论 


从 GFS 的 架构 设计 可 以 看 出 ，GFS 是 一 个 具有 民 好 可 扩展 性 并 能 够 在 软 
件 层 面目 动 处 理 各 种 异 间 情况 的 系统 。Google 是 一 家 很 重视 目 动 化 的 


公司 ， 从 早期 的 GFS， 再 到 Bigtable、Megastore， 以 及 最 近 的 
Spanner,Google 的 分 布 式 存储 系统 在 这 一 点 上 一 脉 相 承 。 由 于 Google 的 
系统 一 开始 能 很 好 地 解决 可 扩展 性 问题 ， 所 以 后 续 的 系统 能 够 构建 在 
前 一 个 系统 之 上 并 是 一 步 一 步 引入 新 的 功能 ， 如 Bigtable 在 GFS 之 上 将 
海量 数据 组 织 成 表格 形式 ，Megastore、Spanner 义 进一步 在 Bigtable 之 上 
融合 一 些 关系 型 数据 库 的 功能 ， 整 个 解决 方案 完美 华丽 。 


目 动 化 对 系统 的 容错 能 力 提出 了 很 高 的 要 求 ， 在 设计 GFS 时 认为 市 点 失 
效 是 音 仿 ， 通 过 在 软件 层面 进行 故 隐 检 测 ， 并 且 通 过 chunk 复 制 操作 将 
原 有 故障 节点 的 服务 迁移 到 新 的 和 节点。 系统 还 会 根据 一 定 的 策略 ， 如 

人 磁盘 使 用 情况 、 机 器 负 载 等 执行 负载 均衡 操作 。Google 在 软件 层面 的 
努力 获得 了 巨大 的 回报 ， 由 于 软件 层面 能 够 做 到 上 自动 化 容错 ， 底 层 的 
硬件 可 以 采用 廉价 的 错误 率 较 高 的 硬件 ， 比 如 廉价 的 SATA 强 ， 这 大 大 
降低 了 云 服务 的 成 本 ， 在 和 其 他 三 丙 的 苋 争 中 表现 出 价格 优势 。 比 较 
典型 的 例子 束 是 Google 的 邮箱 服务 ， 由 于 基础 设施 成 本 低 ，Gmail 服 务 
能 够 免费 给 用 户 提 供 更 大 的 容量 ， 令 其 他 厂 两 鹿 持 莫 及 。 


Google 的 成 功 经 验 也 表明 了 一 点 ， 单 Master 的 设计 是 可 行 的 。 单 Master 
的 设计 不 仅 商 化 了 系统 ， 而 且 能 够 较 好 地 实现 一 致 性 ， 后 面 我 们 将 要 
看 到 的 绝 大 多 数 分 布 式 存储 系统 部 和 GFS 一 样 依赖 单 总 探 证 态 。 然 而 ， 
单 Master 的 设计 并 不 意味 着 实现 GFS 只 是 一 些 比较 简单 琐碎 的 工作 。 基 
于 性 能 考虑 ，GFS 提 出 了 "记录 至 少 原子 性 退 加 一 次 ”的 一 致 性 模型 ， 通 


过 租约 的 方式 将 每 个 chunk 的 修改 授权 下 放 到 ChunkServer 从 而 减少 
Master 的 负载， 通过 流水 线 的 方式 复制 多 个 副本 以 减少 延 时 ， 人 退 加 流程 
复杂 党 琐 。 另 外 ，Master 维 护 的 元 数据 有 很 多 ， 需 要 设计 高 效 的 数据 结 
构 ， 占 用 内 存 小 ， 并 且 能 够 文 持 快 照 操作 。 文 持 写 时 复制 的 B 树 能 够 满 
足 Master 的 元 数据 管理 需求 ， 然 而 ， 它 的 实现 是 相当 复杂 的 。 


4.2 Iaobao File System 


互联 网 应 用 经 党 需 要 存储 用 户 上 传 的 文档 、 图 片 、 视 频 等 ， 比 如 
Facebook 相 册 、 淘 宝 图 片 、Dropbox 文 档 等 。 文 档 、 图 片 、 视 频 一 般 称 
为 Blob 数 据 ， 存 储 Blob 数 据 的 文件 系统 也 相应 地 称 为 Blob 存 储 系统 。 每 
个 Blob 数 据 一 般 都 比较 大 ， 而 且 多 个 Blob 之 间 没 有 关联 。Blob 文 件 系统 
的 特点 是 数据 写 入 后 基本 都 是 只 读 ， 很 少 出现 更 新 操作 。 这 两 下 分 别 
以 Taobao File System 和 Facebook Haystack 为 例 说 明 Blob 文 件 系统 的 架 
构 。 


2007 年 以 前 淘宝 的 图 片 存储 系统 使 用 了 昂贵 的 NetApp 存 储 设备 ， 由 于 
淘宝 数据 量 大 且 增 长 很 快 ， 出 于 性 能 和 成 本 的 考虑 ， 淘 宝 自 主 研发 了 
Blob 存 储 系统 Tabao File System (TFS) 。 目 前 ，TFS 中 存储 的 图 片 规模 
已 经 达到 百 亿 级 别 。 


TEFS 架构 设计 时 需要 考虑 如 下 两 个 问题 : 


eMetadata 信 息 存 储 。 由 于 图 片 数量 巨大 ， 单 机 存放 不 了 所 有 的 元 数据 
言 轧 ， 假 设 每 个 图 片 文件 的 元 数据 占用 100 字 节 ，100 亿 图 片 的 元 数据 
占用 的 空间 为 10Gx0.1KB=1TB， 单 台 机 器 无 法 提供 元 数据 服务 。 


e 减 少 图 片 读 取 的 IO 次 数 。 在 普通 的 Linux 文 件 系 统 中 ， 读 取 一 个 文件 
包括 三 次 位 强 IO: 首先 读 取 目 永 元 数据 到 内 存 ， 其 次 把 文件 的 mode 
点 竣 载 到 内 存 ， 最 后 读 取 实 际 的 文件 内 容 。 由 于 小 文件 个 数 太 多 ,无 
法 将 所 有 目 孙 及 文件 的 inode 信 息 缓 存 到 内 存 ， 因 此 磁盘 IO 次 数 很 难 达 
到 每 个 图 片 读 取 只 需要 一 次 磁 强 IO 的 理想 状态 。 


因此 ，TFS 设 计时 采用 的 思路 是 : 多 个 逻辑 图 片 文件 共 至 一 个 物理 文 
fe 


4.2.1 系统 架构 


TEFS 架构 上 借鉴 了 GFS， 但 与 GFS 又 有 很 大 的 不 同 。 首 先 ，TEFS 内 部 不 
维护 文件 目录 树 ， 每 个 小 文件 使 用 一 个 64 位 的 编号 表示 ; 其 次 ，TFS 是 
一 个 读 多 写 少 的 应 用 ， 相 比 GFS,TFS 的 写 流程 可 以 做 得 更 加 简单 有 效 。 


如 图 4-4 所 示 ， 一 个 TFS 集 群 由 两 个 NameServer 节 点 (一 主 一 备 ) 和 多 
个 DataServer 玉 点 组 成 ，NameServer 通 过 心跳 对 DataSrver 的 状态 进行 监 
测 。NameServer 相 当 于 GFS 中 的 Master,DataServer 相 当 于 GFS 中 的 
ChunkServer。NameServer 区 分 为 主 NameServer 和 备 NameServer， 只 有 
主 NameServer 提 供 服 务 ， 当 主 NameServer 出 现 故障 时 ， 能 够 被 心跳 守 


护 进 程 检测 到 ， 并 将 服务 切换 到 备 NameServer。 每 个 DataServer 上 会 运 
行 多 个 dsp 进 程 ， 一 个 dsp 对 应 一 个 挂 载 点 ， 这 个 挂 载 点 一 般 对 应 一 个 独 
立 役 盘 ， 从 而 管理 多 块 磁 盘 。 


Heart Agent 
一 ~ 一 一 


EF NameServer 
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块 D， 块 内 偏 移 


图 4-4 TFS 整 体 架 构 


在 TFS 中 ， 将 大 量 的 小 文件 (实际 数据 文件 ， 合 并 成 一 个 大 文件 ， 这 个 
大 文件 称 为 块 (Block) ， 每 个 Block 拥 有 在 集群 内 唯一 的 编号 ( 块 

ID) ， 通 过 < 块 ID， 块 内 偏 移 > 可 以 唯一 确定 一 个 文件 。 TEFS 中 Block 
的 实际 数据 都 存储 在 DataServer 中 ， 大 小 一 般 为 64MB ， 默 认 存储 三 
份 ， 相 当 于 GFS 中 的 chunk。 应 用 客户 端 是 TFS 提 供给 应 用 程序 的 访问 
接口 ， 应 用 客户 端 不 缓存 文件 数据 ， 只 缓存 NameServer 的 元 数据 。 


1. 追 加 流程 


TEFS 中 的 追加 流程 相 比 GFS 要 倘 单 有 效 很 多 。GFS 中 为 了 减少 对 Master 
的 压力 ， 引 入 了 租约 机 制 ， 从 而 将 修改 权限 下 放 到 主 ChunkServer， 很 
多 追加 操作 都 不 需要 Master 参 与 。 然 而 ，TFS 是 写 少 读 多 的 应 用 ， 即 使 
每 次 写 操作 都 需要 经 过 NameNode 也 不 会 出 现 问题 ， 大 大 简化 了 系统 的 
设计 。 另 外 ，TFS 中 也 不 需要 文 持 类 似 GFS 的 多 客户 端 并 发 追加 操作 ， 
同一 时 刻 每 个 Block 只 能 有 一 个 写 操作 ， 多 个 客户 端的 写 操作 会 被 串 行 
他 高 


如 图 4-5 所 示 ， 客 户 端 首先 向 NameServer 发 起 写 请 求 ，NameServer 需 要 
根据 DataServer 上 的 可 写 块 、 容 量 和 负载 加 权 平 均 来 选择 一 个 可 写 的 
Block， 并 且 在 该 Block 所 在 的 多 个 DataServer 中 选择 一 个 作为 写 入 的 主 
副本 (Primary) ， 其 他 的 作为 备 副本 (Secondary) 。 接 着 ， 客 户 端 问 
主 副本 写 入 数据 ， 主 副本 将 数据 同步 到 多 个 备 副本 。 如 果 所 有 的 副本 
都 修改 成 功 ， 主 副本 会 首先 通知 NameServer 更 新 Block 的 版 本 号 ， 成 功 
以 后 才 会 返回 客户 端 操 作 结 有 末 。 如 果 中 间 发 生 任何 错误 ， 客 户 端 都 可 
以 从 第 一 步 开始 重 试 。 相 比 GFS,TFS 的 写 流 程 不 够 优化 ， 第 一 ， 每 个 写 
请 求 都 需要 多 次 访问 NameServer; 第 二 ， 数 据 推送 也 没有 采用 流水 线 
方式 减 小 延 返 。 淘 宝 的 系统 是 需求 驱动 的 ， 用 最 简单 的 方式 解决 用 户 
面临 的 问题 。 
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图 4-5 TFS 追 加 流程 


每 个 写 操作 返回 后 ， 会 返回 客户 端 两 个 信息 ， 小 文件 在 TFS 中 的 Block 
编号 (Block id) 以 及 Block 偏 移 (Block offset) 。 应 用 系统 会 将 这 些 信 
筷 保 存 到 数据 库 中 ， 图 片 读 取 的 时 候 首 先 根 据 Block 编 号 从 NameServer 
查找 Block 所 在 的 DataServer， 然 后 根据 Block 偏 移 读 取 图 片 数 据 。TFS 
的 一 致 性 模型 保证 所 有 返回 给 客户 端的 < Blockid,Block offset > 标识 的 
图 片 数据 在 TFS 中 的 所 有 副本 都 是 有 效 的 。 


2.NameServer 


NameServer 主 要 功能 是 ;Block 管理， 包括 创建 、 删 除 、 和 复制、 重新 均 
衡 ，Data-Server 管 理 ， 包 括 心跳 、DataServer 加 入 及 退出 ， 以 及 管理 


Block 与 所 在 DataServer 之 间 的 映射 和 关系。 与 GFS Master 相 比 ，TFS 
NameServer 最 大 的 不 同 就 是 不 需要 保存 文件 目录 树 信 息 ， 也 不 需要 维 
护 文 件 与 Block 之 间 的 映射 关系 。 


NameServer 与 DataServer 之 间 保 持 心 跳 ， 如 条 NameServer 发 现 某 台 
DataServer 发 生 故 障 ， 需 要 执行 Block 复 制 操作 ;如 果 新 DataServer 加 
入 ，NameServer 会 触发 Block 人 负载 均衡 操作 。 和 GFS 类 似 ，TFS 的 负载 
均衡 需要 考虑 很 多 因素 ， 如 机 架 分 布 、 磁 强 利 用 率 、DataServer 读 写 负 
载 等 。 另 外 ， 新 DataServer 加 入 集群 时 也 需要 限制 同时 迁 入 的 Block 数 
量 防止 被 压 找 。 


NameServer 采 用 了 HA 结构 ， 一 主 一 备 ， 主 NameServer 上 的 操作 会 重 放 
至 备 NameServer。 如 果 主 NameServer 出 现 问题 ， 可 以 实时 切换 到 备 


NameServer ° 
4.2.2 讨论 


图 片 应 用 中 有 几 个 问题 ， 第 一 个 问题 是 图 片 去 重 ， 第 二 个 问题 是 图 片 
更 新 与 删除 。 


由 于 用 户 可 能 上 传 大 量 相同 的 图 片 ， 因 此 ， 图 片上 传 到 TFS 前 ， 需 要 去 
重 。 一 般 在 外 部 维护 一 套 文 件 级 别 的 去 重 系统 (Dedup) ， 采 用 MD5 或 
者 SHA1 等 Hash 算 法 为 图 片 文件 计算 指纹 (FingerPrint) 。 图 片 写 入 TFS 
之 前 首先 到 去 重 系 统 中 查找 是 否 存 在 指纹 ， 如 果 已 经 存在 ， 基 本 可 以 


认为 是 重复 图 片 ， 图片 写 入 TFS 以 后 也 需要 将 图 片 的 指纹 以 及 在 TFS 中 
的 位 置信 息 保 存 到 去 重 系统 中 。 去 重 是 一 个 键 值 存储 系统 ， 淘 至 内 部 
使 用 5.2 玉 中 的 Tair 来 进行 图 乒 去 重 。 


图 片 的 更 新 操作 是 在 TFS 中 写 入 新 图 片 ， 并 在 应 用 系统 的 数据 库 中 保存 
新 图 片 的 位 置 ， 图 片 的 删除 操作 仅仅 在 应 用 系统 中 将 图 片 删 除 。 图 片 
在 TFS 中 的 位 置 是 通过 < Block id,Block offset> 标识 的 ， 且 Block 偏 移 是 
在 Block 文 件 中 的 物理 偏 黎 ， 因 此 ， 每 个 Block 中 只 要 还 有 一 个 有 效 的 图 
片 文件 就 无 法 回收 ， 也 无 法 对 Block 文 件 进行 重 整 。 如 果 系 统 的 更 新 和 
删除 比较 频繁 ， 需 要 考虑 磁盘 空间 的 回收 ， 这 点 会 在 Facebook Haystack 
系统 中 具体 说 明 。 


4.3 Facebook Haystack 


Facebook 目 前 存储 了 2600 亿 张 照片 ， 总 大 小 为 20PB， 通 过 计算 可 以 得 
出 每 张 照片 的 平均 大 小 为 20PB/260GB， 约 为 80KB。 用 户 每 周 新 增 照片 
数 为 10 亿 (总 大 小 为 60TB) ， 平 均 每 秒 新 增 的 照片 数 为 109/7/40000 

( 按 每 天 40000s 计 ) ， 约 为 每 秒 3500 次 写 操作 ， 读 操作 峰值 可 以 达到 
每 秒 百 万 次 。 


Facebook 相 册 后 端 早 期 采用 基于 NAS 的 存储 ， 通 过 NFS 挂 载 NAS 中 的 照 
片 文 件 来 提供 服务 。 后 来 出 于 性 能 和 成 本 考虑 ， 目 主 研发 了 Facebook 
Haystack 存 储 相 册 数 据 。 


4.3.1 系统 架构 


Facebook Haystack 的 思路 与 TFS 类 似 ， 也 是 多 个 逻辑 文件 共享 一 个 物理 
文件 。Haystack 染 构 及 读 请 求 处 理 流程 如 图 4-6 所 示 。 
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图 4-6 Haystack 染 构图 


Haystack 系 统 主要 包括 三 个 部 分 : 目录 (Directory) 、 存 储 (Store) 以 
及 缓存 (Cache) 。Haystack 存 储 是 物理 存储 节点 ， 以 物理 卷轴 


(physical volume) 的 形式 组 织 存储 空间 ， 每 个 物理 卷轴 一 般 都 很 大 ， 
比如 100GB， 这 样 10TB 的 数据 也 只 需 100 个 物理 卷轴 “。 每 个 物理 卷轴 对 
应 一 个 物理 文件 ， 因 此 ， 每 个 存储 下 点 上 的 物理 文件 元 数据 都 很 小 。 
多 个 物理 存储 节点 上 的 物理 卷轴 组 成 一 个 逻辑 卷轴 (logical 
volume) ， 用 于 备份 。Haystack 目 录 存 放 逻 辑 卷 轴 和 物理 卷轴 的 对 应 关 
系 ， 以 及 照片 id 到 逻辑 卷轴 之 间 的 映射 关系 。Haystack 缓 存 主 要 用 于 解 
决 对 CDN 提 供 商 过 于 依赖 的 问题 ， 提 供 最 近 增 加 的 照片 的 缓存 服务 。 


Haystack 照 片 读 取 请 求 大 致 流程 为 : 用 户 访问 一 个 页 面 时 ，Web 服 务 器 
请 求 Haystack 目 录 构 造 一 个 URL: http://<CDN>/<Cache>/< Machine 
id>/<Logical volume,Photo > ， 后 续 根 据 各 个 部 分 的 信息 依次 访问 
CDN、Haystack 缓 存 和 后 端的 Haystack 存 储 节 点。Haystack 目 永 构造 
URL 时 可 以 省 略 <CDN> 部 分 从 而 使 得 用 户 直接 请 求 Haystack 缓 存 而 不 
必 经 过 CDN 。Haystack 绥 存 收 到 的 请 求 包含 两 个 部 分 ， 用 户 浏览 器 的 请 
求 及 CDN 的 请 求 ，Haystack 绥 存 只 缓存 用 户 浏览 右 发 送 的 请 求 且 要 求 请 
求 的 Haystack 存 储 节 点 是 可 写 的 。 一 般 来 襄 ，Haystack 后 端的 存储 节点 
写 一 段 时 间 以 后 达到 容量 上 限 变 为 只 读 ， 因 此 ， 可 写 节 点 的 照片 为 最 
近 增 加 的 照片 ， 是 热点 数据 。 本 忆 和 暂 不 讨论 CDN， 只 讨论 Haystack 后 端 
存储 系统 ， 包 括 Haystack 目 永和 Haystack 缓 存 两 个 部 分 。 


1. 写 流程 


如 图 4-7 所 示 ，Haystack 的 写 请 求 (照片 上 传 ) 人 处理 流程 为 Web 服务 右 
首先 请 求 Haystack 目 隶 获取 可 写 的 逻辑 卷轴 ， 接 着 生成 照片 唯一 id 并 将 
数据 写 入 每 一 个 对 应 的 物理 卷轴 (备份 数 一 般 为 3 。 写 操作 成 功 要 求 
所 有 的 物理 卷轴 都 成 功 ， 如 采 中 间 出 现 故 障 ， 需 要 重 试 。 
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图 4-7 Haystack 写 流程 


Haystack 的 一 致 性 模型 保证 只 要 写 操作 成 功 ， 逻 辑 卷 轴 对 应 的 所 有 物理 
卷轴 都 存在 一 个 有 效 的 照片 文件 ， 但 有 效 照片 文件 在 不 同 物理 卷轴 中 
的 偏 移 (offset) 可 能 不 同 。 


Haystack 存 储 玉 点 只 文 持 追加 操作 ， 如 果 需 要 更 新 一 张 照片 ， 可 以 新 增 
一 张 编号 相同 的 照片 到 系统 中 ， 如 有 条 新 增 照 片 和 原 有 的 照片 在 不 同 的 
逻辑 卷轴 ，Haystack 目 杂 的 元 数据 会 更 新 为 最 新 的 逻辑 卷轴 ;， 如 采 新 增 
照片 和 原 有 的 照 斤 在 相同 的 逻辑 卷轴 ，Haystack 存 储 会 以 侦 移 更 大 的 照 
片 文件 为 准 。 


2. 容 错 处 理 
(1) Haystack 存 储 节 点 容错 


仿 测 到 存储 节点 故障 时 ， 所 有 物理 卷轴 对 应 的 逻辑 卷轴 都 被 标记 为 只 
读 。 存 储 节 点 上 的 未 完成 的 写 操作 全 部 失败 ， 写 操作 将 重 试 ， 如 果 发 
生 故 障 的 存储 节点 不 可 恢复 ， 需 要 执行 一 个 拷贝 任务 ， 从 其 他 副本 所 
在 的 存储 节点 拷贝 丢失 的 物理 卷轴 的 数据 ;由 于 物理 卷轴 一 般 很 大 ， 
比如 100GB， 所 以 拷贝 的 过 程 会 很 长 ， 一 般 为 小 时 级 别 。 


(2) Haystack 目 录 容 错 


Haystack 目 录 采 用 主 备 数据 库 (Replicated Database) 做 持久 化 存储 ， 
由 主 备 数据 库 提供 容错 机 制 。 


3.Haystack 目 杂 


Haystack 目 录 的 功能 如 下 : 


1) 提供 逻辑 卷轴 到 物理 卷轴 的 映射 ， 维 护照 片 id 到 逻辑 卷轴 的 映射 ; 
2) 提供 负载 均衡 ， 为 写 操作 选择 逻辑 卷轴 ， 读 操作 选择 物理 卷轴 
3) 屏蔽 CDN 服 务 ， 可 以 选择 某 些 图 片 请 求 直 接 走 Haystack 缓 存 ; 

4) 标记 某 些 逻辑 卷轴 为 只 读 。 


根据 前 面 的 计算 结果 可 知 ，Facebook 相 册 系 统 每 秒 的 写 操 作 大 约 为 
3500 次 ， 每 秒 的 读 请 求 大 约 为 100 万 次 。 每 个 写 请 求 都 需要 通过 
Haystack 绥 存 获取 可 写 的 卷轴 ， 每 个 读 请 求 需要 通过 Haystack 绥 存 构造 
读 取 URL。 这 里 需要 注意 ， 照 请 id 到 逻辑 卷轴 的 映射 的 数据 量 太 大 ， 单 
机 内 存 无 法 存放 ， 笔 者 猜测 内 部 使 用 了 MySQL Sharding 集 群 ， 另 外 ， 
还 增加 了 一 个 Memcache 集 群 满足 查询 需求 。 


4.Haystack 存 储 


Haystack 存 储 保存 物理 卷轴 ， 每 个 物理 卷轴 对 应 文件 系统 中 的 一 个 物理 
文件 ， 每 个 物理 文件 的 格式 如 图 4-8 所 示 。 
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图 4-8 Haystack 数 据 块 格式 


多 个 照片 文件 存放 在 一 个 物理 卷轴 中 ， 每 个 照片 文件 是 一 个 Needle， 包 
含 实际 数据 及 逻辑 照片 文件 的 元 数据 。 部 分 元 数据 需要 装载 到 内 存 中 
用 于 照片 查找 ， 包 括 Key (照片 d，8 字 节 ) ，Alternate Key (照片 规 
格 ， 包 括 Thumbnail、Small、Medium 及 Large，4 字 节 ) ， 照 片 在 物理 
卷轴 的 偏 移 Offset (4 字 节 ) ， 照 片 的 大 小 Size (4 字 节 ) ， 每 张 照片 占 
用 8+8+4=20 字 节 的 空间 ， 假 设 每 台 机 器 的 可 用 磁盘 为 8TB， 照 片 平 均 
大 小 为 80KB， 单 机 存储 的 照片 数 为 8TB/80KB=100MB， 占 用 内 存 
100MBx20=2GB 。 


存储 节点 宕 机 时 ， 需 要 恢复 内 存 中 的 逻辑 照片 查找 表 ， 扫 描 整 个 物理 
卷轴 耗 时 太 长 ， 因 此 ， 对 每 个 物理 卷轴 维护 了 一 个 索引 文件 (Index 
File) ， 保 存 每 个 Needle 查 找 相关 的 元 数据 。 写 操作 首先 更 新 物理 卷轴 
文件 ， 然 后 异步 更 新 索引 文件 。 由 于 更 新 索引 文件 是 异步 的 ， 所 以 可 
能 出 现 索引 文件 和 物理 卷轴 文件 不 一 致 的 情况 ， 不 过 由 于 对 物理 卷轴 
文件 和 索引 文件 的 操作 都 是 追加 操作 ， 只 需要 扫描 物理 卷轴 文件 最 后 
写 入 的 几 个 Needle， 然 后 补 全 索引 文件 即 可 。 这 种 扩 术 在 仅 文 持 追 加 的 
文件 系统 很 常见 。 


Haystack Store 存 储 广 点 采用 延迟 删除 的 回收 策略 ， 删 除 照 片 只 是 同 卷 
轴 中 筷 加 一 个 带 有 删除 标记 的 Needle， 定 时 执行 Compaction 任 务 回 收 已 
删除 空间 。 所 请 Compaction 操 作 ， 即 将 所 有 老 数据 文件 中 的 数据 扫描 
一 志 ， 以 保留 最 新 一 个 照片 的 原则 进行 删除 ， 并 生成 新 的 数据 文件 。 


4.3.2 讨论 


相 比 TFS,Haystack 的 一 大 特色 就 是 磁 副 空间 回收 。Blob 文 件 在 TFS 中 通 
过 <Block id,Block offset> 标识 ， 因 此 ， 不 能 对 TFS 中 的 数据 块 进行 重 
整 操作 ， 而 Haystack 中 的 元 信息 只 能 定位 到 Blob 文 件 所 在 的 逻辑 卷轴 ， 
Haystack 存 储 世 点 可 以 根据 情况 对 物理 卷轴 进行 Compaction 操 作 以 回收 
磁盘 空间 。 


Facebook Haystack 中 每 个 逻辑 卷轴 的 大 小 为 100GB， 这 样 减少 了 元 信 
轧 ， 但 是 增加 了 迁移 的 时 间 。 假 设 限 制 内 部 网 络 带宽 为 20MB/s， 那 么 
迁移 100GB 的 数据 需要 的 时 间 为 100GB/20MB/s=5000s， 大 约 是 一 个 半 
小 时 。 而 TFS 设 计 的 数据 规模 相 比 Haystack 要 小 ， 因 此 ， 可 以 选择 
64MB 的 块 大 小 ， 有 利于 负载 均衡 。 


另外 ，Haystack 使 用 RAID 6， 并 且 克 层 文件 系统 使 用 性 能 更 好 的 XFS， 
淘宝 TFS 不 使 用 RAID 机 制 ， 文 件 系 统 使 用 Ext3， 由 应 用 程序 负责 管理 
多 个 磁盘 。Haystack 使 用 了 Akamai&Limelight 的 CDN 服 务 ， 而 淘宝 已 
经 使 用 自 建 的 CDN， 当 然 ，Facebook 也 在 考虑 自 建 CDN 。 


4.4 内 容 分 发 网 络 


CDN 通 过 将 网 络 内 容 发 布 到 靠近 用 户 的 边 绿 斑点 ， 使 不 同 地 域 的 用 户 
在 访问 相同 网 页 时 可 以 束 近 获取 。 这 样 既 可 以 减轻 源 服务 右 的 负担 ， 
也 可 以 减少 整个 网 络 中 的 流量 分 布 不 均 的 情况 ， 进 而 改善 整个 网 络 性 
能 。 所 谓 的 边缘 下 点 征 CDN 服 务 提供 商 经 过 精心 挑选 的 距离 用 户 非常 
近 的 服务 器 节点 ， 仅 “一 跳 ”(Single Hop) 之 须 。 用 户 在 访问 时 就 无 需 
再 经 过 多 个 路 由 化 ， 大 大 减少 访问 时 间 。 


从 图 4-9 可 以 看 出 ，DNS 在 对 域名 解析 时 不 再 辐 用 户 返 回 源 服务 右 的 
IP， 而 古 返 回 了 由 智能 CDN 人 负载 均衡 系统 先是 的 某 个 边 绿 玉 扩 的 IP。 
用 户 利 用 这 个 下 访问 边缘 节点 ， 然 后 该 节点 通过 其 内 部 DNS 解析 得 到 


源 服 务 器 IP 并 发 出 请 求 来 获取 用 户 所 需 的 页 面 ， 如 采 请 求 成 功 ， 边 缘 
节点 会 将 页 面 缓存 下 来 ， 下 次 用 户 访问 时 可 以 直接 读 取 ， 而 不 需要 每 
次 者 访问 源 服 务 天 


人 @ 提交 所 访 四 发 出 解析 可 
ee 全 重 定 向 一 一 - 
青 : 智能 DNS 负 


站 问 网 站 域名 
-一 A Az Ha 
本 地 DNS DNS 服务 天 Psa 
RS - - 一 一 一 一] 载 均衡 系统 
sx @ 返回 边缘 @ 返回 边缘 @ 返回 边缘 


SS 节点 的 IP 节点 的 了 节点 的 下 


@ 利用 边缘 人 @ 返回 请 求 内 容 


节点 访问 


全 通过 内 部 DNS 解析 得 到 
IP 并 回 服务 需 发 出 请 求 


边缘 节点 源 服 务 器 
返回 请 求 内 容 


图 4-9 用 户 访 问 CDN 的 整体 流程 


4.4.1 CDN 架 构 


淘宝 CDN 系 统 用 于 支持 用 户 购物 ， 尤 其 是 “ 双 11” 光 棍 节 时 的 海量 图 片 
请 求 。 如 图 4-10 所 示 ， 图 片 存 储 在 后 台 的 TFS 集 群 中 ，CDN 系 统 将 这 
图 片 缓存 到 离 用 户 最 近 的 边缘 让 点 。 CDN 采 用 两 级 Cache: L1-Cache 以 
及 L2-Cache。 用 户 访问 淘宝 网 的 图 片 时 ， 通 过 全 局 调度 系统 (Global 
Load Balancing) 调度 到 某 个 L1-Cache 节 点 。 如 果 L1-Cache 命 中 ， 那 么 
直接 将 图 片 数据 返回 用 户 ; 否则， 请 求 L2-Cache 节 点 ， 并 将 返回 的 图 
片 数 据 缓存 到 L1-Cache 节 点 。 如 果 L2-Cache 命 中 ， 直 接 将 图 片 数据 返回 
给 L1-Cache 节 点 ; 否则 ， 请 求 源 服务 器 的 图 片 服务 器 集群 。 每 台 图 片 


服务 器 是 一 个 运行 着 Nginx 的 Web 服 务 器 ， 它 还 会 在 本 地 缓存 图 片 ， 只 
有 当 本 地 缓存 也 不 命中 时 才 会 请 求 后 端的 TFS 集 群 ， 图 片 服务 器 集群 和 
TFS 集 群 部 署 在 同一 个 数据 中 心 内 。 


全 局 调度 系统 


L1-Cache 0 
L2-Cache ~ 100T 
Application -~ 300T Servers 
Storage 


图 4-10 淘宝 网 CDN 整 体 架构 


对 于 每 个 CDN 节 点 ， 其 架构 如 图 4-11 所 示 。 从 图 中 可 以 看 出 ， 每 个 
CDN 广 点 内 部 通过 LVS+Haproxy 的 方式 进行 负载 均衡 。 其 中 ，LVS 是 四 
层 负 载 均衡 软件 ， 性 能 好 ;，Haproxy 是 七 层 负 载 均 衡 软件 ， 能 够 支持 更 
加 灵活 的 负载 均衡 策略 。 通 过 有 机 结合 两 者 ， 可 以 将 不 同 的 图 片 请 求 
调度 到 不 同 的 Squid 服 务 器 。 


LVS (L4) ms = 


> 


Haproxy (L7) 


1 


源 服务 器 


图 4-11 淘宝 网 单个 CDN 节 点 架构 


Squid 服 务 句 用 来 缓存 Blob 图 片 数 据 。 用 户 的 请 求 按 照 一 是 的 集 略 发 送 
给 东台 Squid 服 务 右 ， 如 来 绥 存 命中 则 直接 返回 ， 否则 ，Squid 服 务 表 百 
先 会 请 求 源 服务 右 获 取 图 片 绥 存 到 本 地 ， 接 看 再 将 图 片 数 据 返 回 给 用 

尸 。 数 据 通 过 一 致 性 哈 硕 的 方式 分 布 到 不 同 的 Squid 服 务 器 ， 使 得 增加 / 
删除 服务 器 只 需要 移动 Ln (n 为 Squid 服 务 器 总 数 ) 的 对 象 。 


相 比 分 布 式 存储 系统 ， 分 布 式 绥 存 系统 的 实现 要 容易 很 多 。 这 是 因为 
缓存 系统 不 需要 考虑 数据 持久 化 ， 如 果 缓 存 服务 器 出 现 故 障 ， 只 需要 
简单 地 将 它 从 集群 中 吻 除 即 可 。 


1. 分 级 存储 


分 级 存储 是 淘宝 CDN 架 构 的 一 个 很 大 创新 。 由 于 缓存 数据 有 较 高 的 局 
部 性 ， 在 Squid 服 务 器 上 使 用 SSD+SAS+SATA 混 合 存储 ， 图 片 随 着 热点 
变化 而 迁移 ， 最 热门 的 存储 到 SSD ， 中 等 热度 的 存储 到 SAS， 轻 热度 的 
存储 到 SATA“。 通 过 这 样 的 方式 ， 能 够 很 好 地 结合 SSD 的 性 能 和 SAS、 
SAIA 和 磁盘 的 成 本 优势 。 


2. 低 功 耗 服务 瑚 定制 


淘宝 CDN 架 构 的 另外 一 个 亮点 是 低 功 耗 服务 器 定制 。CDN 缓 存 服务 是 
IO 密集 型 而 不 是 CPU 密集 型 的 服务 ， 因 此 ， 选 用 Intel Atom CPU 定制 低 
功 耗 服务 器 ， 在 保证 服务 性 能 的 前 提 下 大 大 降低 了 整体 功 耗 。 


4.4.2 讨论 


由 于 Blob 存 储 系统 读 访 问 量 大 ， 更 新 和 删除 很 少 ， 特 别 适合 通过 CDN 
技术 分 发 到 离 用 户 最 近 的 节点 。 CDN 也 是 一 种 缓存 ， 需 要 考虑 与 源 服 
务 器 之 则 的 一 任性 。 源 服务 器 更 新 或 者 删除 了 Blob 数 据 ， 需 要 能 够 比 


较 实 时 地 推送 到 CDN 缓 存 节 点 ， 否 则 只 能 等 到 缓存 中 的 对 象 被 淘汰 ， 
而 对 象 的 有 效 期 一 般 很 长 ， 热 门 对 象 很 难 被 淘汰 。 


另外 ， 淘 至 在 研发 CDN 的 过 程 中 也 发 现 ， 随 着 系统 的 规模 越 来 越 大 ， 

商用 软件 往往 很 难 满足 需求 ， 通 过 采用 开源 软件 与 自主 开发 相 结 合 的 
方式 ， 可 以 有 更 好 的 可 控 性 ， 系 统 也 有 更 高 的 可 扩展 性 。 互 联网 技术 
的 优势 在 于 规模 效应 ， 随 着 规模 越 来 越 大 ， 单 位 成 本 也 会 越 来 越 低 。 


当然 ， 随 着 硬件 技术 的 发 展 ， 淘 军 CDN 架 构 也 经 历 着 变革 。 例 如 SSD 
价格 快速 下 降 ， 使 得 SSD+SAS+SATA 分 级 存储 的 优势 不 再 明显 ， 新 上 
线 的 CDN 缓 存 斑点 配备 的 磁盘 均 为 SSD 。 


第 5 章 分 布 式 键 值 系统 


分 布 式 键 值 模型 可 以 看 成 是 分 布 式 表 格 模型 的 一 种 特例 。 然 而 ， 由 于 
它 只 文 持 针对 单个 key-value 的 增 、 删 、 碍 、 改 操作 ， 因 此 ， 适 用 3.3.1 
斑 提 到 的 哈 希 分 布 算法 。 


Amazon Dynamo 是 分 布 式 键 值 系 统 ， 最 初 用 于 文 持 购物 车 应 用 。 
Dynamo 将 很 多 分 布 式 技 术 融 合 到 一 个 系统 内 ， 和 学 习 Dynamo 的 设计 对 
理解 分 布 式 系统 的 理论 很 有 和 帮助。 当然， 这 个 系统 的 主要 价值 在 于 学 
术 层 面 ， 从 工程 的 角度 看 ，Dynamo 牺 牲 了 一 致 性 ， 却 没有 换 来 什么 好 
处 ， 不 适合 直接 模仿 。 


Tair 是 淘宝 网 开发 的 分 布 式 键 值 系 统 ， 它 供 鉴 了 Dynamo 系 统 的 一 些 设 
计 思 路 并 做 了 一 些 创 新 ， 其 中 最 大 的 变化 就 是 从 P2P 架 构 修 改 为 囊 有 中 
心 节 扩 的 架构 ， 笔 者 认为 ， 这 种 思路 在 大 方 同 上 古 正确 的 。 


本 章 首 先 详细 介绍 Amazon Dynamo 的 设计 思路 ， 接 着 介绍 淘宝 网 的 Tair 


5.1 Amazon Dynamo 


Dynamo 以 很 简单 的 键 值 方式 存储 数据 ， 不 文 持 复杂 的 查询 。Dynamo 
中 存储 的 是 数据 值 的 原始 形式 ， 不 解析 数据 的 具体 内 容 。Dynamo 主 要 
用 于 Amazon 的 购物 车 及 S3 云 存储 服务 。 


Dynamo 通 过 组 合 P2P 的 各 种 技术 打造 了 线 上 可 运行 的 分 布 式 键 值 系 
统 ， 表 5-1 中 列 出 了 Dynamo 设 计时 面临 的 问题 及 最 终 采 取 的 解决 方案 。 


表 5-1 Dynamo 设计 时 面临 的 问题 及 解决 方案 


问 题 采取 的 技术 
数据 分 布 改进 的 一 致 性 哈 希 ( 虚拟 节点 ) 
复制 协议 复制 写 协 议 ( Replicated-write protocol，NWR 参数 可 调 ) 
数据 冲突 处 理 向 量 时 钟 
临时 故障 处 理 数据 回 传 机 制 ( Hinted handoff ) 
永久 故障 后 的 恢复 Merkle 哈 希 树 
成 员 资 格 及 错误 检测 甘于 Gossip 的 成 员 资 格 和 错误 检测 协议 


5.1.1 数据 分 布 


Dynamo 系 统 采 用 3.3.1 季 ( 见 图 3-2) 中 介绍 的 一 致 性 哈 希 算法 将 数据 分 
布 到 多 个 存储 六 点 中 。 一 致 性 哈 希 算法 思想 如 下 : 给 系统 中 每 个 节点 
分 配 一 个 随机 token， 这 些 token 构 成 一 个 蛤 希 环 。 执 行 数据 存放 操作 
时 ， 先 计算 主键 的 哈 硕 值 ， 然 后 存放 a 到 顺 时 壬 方向 第 一 个 大 于 或 者 等 
于 该 哈 希 值 的 token 所 在 的 节点 。 一 致 性 哈 希 的 优点 在 于 市 点 加 入 /删除 
时 只 会 影响 到 在 哈 布 环 中 相 邻 的 太后 ， 而 对 其 他 广 点 没 影响。 


考虑 到 丰 点 的 异 构 性 ， 不 同 世 点 的 处 理 能 力 差 别 可 能 很 大 ，Dynamo 使 
用 了 改进 的 一 致 性 哈 希 算法 : 每 个 物理 节点 根据 其 性 能 的 差异 分 配 多 
个 token， 每 个 token 对 应 一 个 “虚拟 世 点 ”。 每 个 虚拟 节点 的 处 理 能 力 基 
本 相当 ， 并 随机 分 布 在 哈 硕 空间 中 。 和 存储 时 ， 数 据 按照 哈 布 值 落 到 菏 
个 虚拟 太 扣 人 负 员 的 区 域 ， 然 后 被 存 储 在 该 虚拟 太 扣 所 对 应 的 物理 市 扩 
i 


如 图 5-1 所 示 ， 某 Dynamo 和 集群 中 原来 有 3 个 节操 ， 每 个 节点 分 配 了 3 个 
token: 节点 1 (1，4，7) ， 节 点 2 (2，3，8) ， 节 点 3 (0，5，6) 
存放 数据 时 ， 首 先 计算 主键 的 哈 希 值 ， 并 根据 哈 希 值 将 数据 存放 到 对 
应 token 所 在 的 节点 。 假 设 增加 节点 4，Dynamo 集 群 可 能 会 分 别 将 节点 1 
和 市 点 3 的 token 1 和 token 5 迁移 到 和 点 4， 克 点 token 分 配 情 况 变 为 : 届 
点 1 (4，7) ， 市 点 2 (2，3，8) ， 市 点 3 (0，6) 以 及 节点 4 (1， 

5) 。 这 样 就 实现 了 自动 负载 均衡 。 


图 5-1 Dynamo 虚 拟 节 点 


为 了 找到 数据 所 属 的 节操 ， 要 求 每 个 节点 维护 一 定 的 集群 信息 用 于 害 
位 。Dynamo 系 统 中 每 个 太 扩 维护 整个 集群 的 信息 ， 客 户 端 也 绥 存 整个 
集群 的 信息 ， 因 此 ， 绝 大 部 分 请 求 能 够 一 次 定位 到 目标 节点 。 


由 于 机 器 或 者 人 为 的 因素 ， 系 统 中 的 广 扩 成员 加 入 或 者 删除 经 沼 发 

生 ， 为 了 保证 每 个 节点 缓存 的 都 是 Dynamo 集 群 中 最 新 的 成 员 信息 ， 所 

有 下 点 每 隔 固定 时 间 (比如 1s) 通过 Gossip 协 议 的 方式 从 其 他 节点 中 任 
选择 一 个 与 之 通信 的 和 节点。 如果 连接 成 功 ， 双 方 交 换 各 目 保 存 的 集 

群 信息 。 


Gossip 协 议 用 于 P2P 系 统 中 自治 的 节点 协调 对 整个 集群 的 认识 ， 比 如 集 
群 的 节点 状态 、 负 载 情况 。 我 们 移 看 看 两 个 和 点 A 和 B 是 如 何 交 换 对 世 
界 的 认识 的 : 


1) A 告 诉 B 其 管理 的 所 有 克 点 的 版 本 (包括 Down 状 态 和 Up 状态 的 节 
WU 


2) B 告 诉 A 哪些 版 本 它 比 较 旧 了 ， 哪 些 版 本 它 有 最 新 的 ， 然 后 把 最 新 
的 那些 节点 发 给 A (处 于 Down 状 态 的 节点 由 于 版 本 没有 发 生 更 新 所 以 
不 会 彼 关注 ) 3 


3) A 将 B 中 比较 旧 的 节点 发 送 给 B， 同 时 将 B 发 送 来 的 最 新 节点 信息 做 
本 地 更 新 ; 


4) B 收 到 A 发 来 的 最 新 节点 信息 后 ， 对 本 地 缓存 的 比较 旧 的 节点 做 更 
新 。 


由 于 种 子 节 点 的 存在 ， 新 节点 加 入 可 以 做 得 比较 简单 。 新 节点 加 入 时 

目 先 与 种 子 让 点 交换 集群 信息 ， 从 而 对 集群 有 了 认识 。DHT 
(Distributed Hash Table， 也 称 为 一 致 性 哈 希 表 ) 环 中 原 有 的 其 他 节点 
会 定期 和 种 子 节 点 交换 集群 信息 ， 从 而 发 现 新 让 点 的 加 入 。 


集群 不 断 变 化 ， 可 能 随时 有 机 器 下 线 ， 因 此 ， 每 个 厄 点 还 需要 定期 通 
过 Gossip 协 议 同 其 他 证 点 交换 集群 信息 。 如 末 发 现 菏 个 市 点 很 长 时 间 状 
仿 都 没有 更 狐 ， 比 如 距离 上 次 更 新 的 时 间 间 陋 超过 一 定 的 国 值 ， 则 认 
为 该 节点 已 经 下 线 了 。 


5.1.2 一 致 性 与 复制 


为 了 处 理 节 点 失效 的 情况 (DHT 环 中 删除 节点 ) ， 需 要 对 节点 的 数据 
进行 复制 。 思 路 如 下 : 假设 数据 存储 N 份 ，DHT 定 位 到 的 数据 所 属 广 所 


为 K， 则 数据 存储 在 节点 KK+1，.….，K+N-1 上 。 如 果 第 K+i (0<i<N- 
1) 台 机 器 宕 机 ， 则 往 后 找 一 台 机 器 K+NI 临 时 替代 。 如 果 第 K+i 台 机 器 
重启 ， 临 时 替代 的 机 器 K+N 能 够 通过 Gossip 协 议 发 现 ， 它 会 将 这 些 临 时 
数据 归还 K+i， 这 个 过 程 在 Dynamo 中 叫做 数据 回 传 (Hinted 

Handoff) 。 机 器 K+ti 宕 机 的 这 段 时 间 内 ， 所 有 的 读 写 均 落 入 到 机 器 
[K,K+i-1] 和 [K+i+1，K+N] 中 。 如 果 机 器 K+i 永 久 失 效 ， 机 器 K+N 需 要 
进行 数据 同步 操作 。 一 般 来 说 ， 从 机 器 K+ti 宕 机 开始 到 被 认定 为 永久 失 
效 的 时 间 不 会 太 长 ， 积 累 的 写 操 作 也 不 会 太 多 ， 可 以 利用 Merkle 树 对 
机 器 的 数据 文件 进行 快速 同步 (参见 下 一 小 节 ) 。 


NWR 是 Dynamo 中 的 一 个 亮点 ， 其 中 N 表 示 复 制 的 备份 数 ，R 指 成 功 读 

操作 的 最 少 节点 数 ，W 指 成 功 写 操作 的 最 少 节 点 数 。 只 要 满足 W+R> 

N， 就 可 以 保证 当 存 在 不 超过 一 台 机 器 故障 的 时 候 ， 至 少 能 够 读 到 一 份 
有 效 的 数据 。 如 果 应 用 重视 读 效 率 ， 可 以 设置 W=N,R=1; 如 果 应 用 需 

要 在 读 / 写 之 间 权 衡 ， 一 般 可 设置 N=3，W=2，R=2; 当然 ， 如 果 丢 失 最 
后 的 一 些 更 新 也 不 会 有 影响 的 话 ， 也 可 以 选择 WwW=1，R=1，N=3。 


NWR 看 似 很 完美 ， 其 实 不 然 。 在 Dynamo 这 样 的 P2P 集 群 中 ， 由 于 每 个 
节点 存储 的 集群 信息 有 所 不 同 ， 可 能 出 现 同一 条 记录 被 多 个 节点 同时 
更 新 的 情况 ， 无 法 保证 多 个 节点 之 间 的 更 新 顺序 。 为 此 Dynamo 引 入 向 
量 时 钟 《Vector Clock) 的 技术 手段 来 尝试 解决 冲突 ， 如 图 5-2 所 示 。 


Dynamo 中 的 癌 量 时 钟 用 一 个 [nodes,counter] 对 表示 。 其 中 ，nodes 表 不 
节点 ，counter 是 一 个 计数 器 ， 初 始 为 0， 市 点 每 次 更 新 操作 加 1。 首 
先 ，Sx 对 某 个 对 象 进行 一 次 写 操作 ， 产 生 一 个 对 象 版 本 D1 ([Sx， 
1]) ， 接 着 Sx 再 次 操作 ，counter 值 更 新 为 2， 产 生 第 二 个 版 本 D2 
([Sx，2]) ;之 后 ，Sy 和 Sz 同 时 对 该 对 象 进行 写 操作 ，Sy 将 自身 的 信 
息 加 入 向 量 时 钟 产生 了 新 的 版 本 D3 ([Sx，2]，[Sy，1]) ，S$z 同 样 产生 
了 新 的 版 本 信息 D4 ([Sx，2]，[Sz，1]) ， 这 时 系统 中 就 有 了 两 个 冲突 
的 版 本 。 最 常见 的 冲突 解决 方法 有 两 种 ， 一 种 是 通过 客户 端 逻辑 来 解 
决 ， 比 如 购物 车 应 用 ;另外 一 种 常见 的 策略 是 "last write wins”， 即 选择 
时 间 惟 最 新 的 副本 ， 然 而 ， 这 个 策略 依赖 集群 内 节点 之 间 的 时 钟 同 步 
算法 ， 不 能 完全 保证 准确 性 。 


>” Sx 处 理 的 写 操 作 


DI1([Sx,1]) 


D2([Sx,2]) 


Sy 处 理 的 写 操 作 .4 S- 处 理 的 写 操 作 


D3([Sx,2],[Sy1]) D4([Sx,2],[Sz,1]) 


人 六 解 决 : 二 冲 和 ER 


D5([Sx,3],[Sy,1],[Sz.1]) 


图 5-2 回 量 时 钟 


向 量 时钟 不 能 完美 解决 冲突 ， 即 使 N+W > R,Dynamo 也 只 能 保证 每 个 读 
取 操 作 能 读 到 所 有 的 更 新 版 本 ， 这 些 版 本 可 能 冲突 ， 需 要 进行 版 本 合 
并 。Dynamo 只 保证 最 终 一 致 性 ， 如 有 果 多 个 世 点 之 间 的 更 新 顺序 不 一 
致 ， 客 户 端 可 能 读 取 不 到 期 望 的 结果 。 这 个 不 一 致 问题 需要 注意 

为 影响 到 了 应 用 程序 的 设计 和 对 整个 系统 的 测试 工作 。 


5.1.3 容错 


Dynamo 把 异 稍 分 为 两 种 类 型 : 临时 性 的 异 利 和 永久 性 异 章 。 有 一 些 异 
第 是 临时 性 的 ， 比 如 机 万 假死 ， 其 他 异 汕 ， 如 硬盘 报修 或 机 右 报 废 
等 ， 由 于 其 持续 时 间 太 长 ， 称 为 永久 性 的 。 下 面 解释 Dynamo 的 容错 机 
制 |: 


e 数 据 回 传 在 Dynamo 设 计 中 ， 一 份 数据 被 写 到 K,K+1,，......，K+N-1 

这 N 台 机 器 上 ， 如 果 机 器 K+i (0<i<N-1) 宕 机 ， 原 本 写 入 该 机 器 的 数据 
转移 到 机 器 K+N， 如 果 在 指定 的 时 间 工 内 K+i 重 新 提供 服务 ， 机 器 K+N 
将 通过 Gossip 协 议 发 现 ， 并 将 启动 传输 任务 将 暂 存 的 数据 回 传 给 机 咒 

K+i° 


eMerkle 树 同步 如 琳 超 过 了 时 间 T 机 侨 K+i 还 是 处 于 宕 机 状态 ， 这 种 异 
常 被 认为 是 永久 性 的 。 这 时 需要 借助 Merkle 树 机 制 从 其 他 副本 进行 数 
据 同 步 。Merkle 树 同步 的 原理 很 简单 ， 每 个 非 叶子 斑点 对 应 多 个 文 

件 ， 为 其 所 有 子 广 点 值 组 合 以 后 的 哈 布 值 ， 叶 了 于 市 点 对 应 单个 数据 文 
件 ， 为 文件 内 容 的 哈 布 值 。 这 样 ， 任 何 一 个 数据 文件 不 匹配 都 将 导致 
从 该 文件 对 应 的 叶子 市 点 到 根 节 点 的 所 有 广 点 值 不 同 。 每 台 机 器 对 每 
一 段 范 围 的 数据 维护 一 舌 Merkle 树 ， 机 器 同步 时 秆 先 传输 Merkle 树 信 
轧 ， 并 且 只 需要 同步 从 根 到 叶子 的 所 有 下 点 值 均 不 相同 的 文件 。 


e 读 取 修 复 假设 N=3，W=2，R=2， 机 器 K 宕 机 ， 可 能 有 部 分 写 操作 已 
经 返回 客户 问 成 功 了 但 是 没有 完全 同步 到 所 有 的 副本 ， 如 来 机 右 K 出 现 
永久 性 异 弟 ， 比 如 磁盘 故障 ， 三 个 副本 之 间 的 数据 一 直 部 不 一 人 怪 。 客 


尸 端 的 读 取 操 作 如 末 发 现 了 茶 些 副本 版 本 太 老 ， 则 局 动 异 步 的 读 取 修 
复 任务 。 该 任务 会 合并 多 个 副本 的 数据 ， 并 使 用 合并 后 的 结果 更 新 过 
期 的 副本 ， 从 而 使 得 副本 之 间 保 持 一 致 。 


5.1.4 负载 均衡 


Dynamo 的 负载 均衡 取决 于 如 何 给 每 台 机 旭 分 配 虚 拟 闻 点 号 ， 即 token 。 
由 于 集群 环境 的 异 构 性 ， 每 台 物 理 机 器 包含 多 个 虚拟 节点 。 一 般 有 如 
下 两 种 分 配 节 点 号 的 方法 。 


e 随 机 分 配 。 每 台 物理 方 点 加 入 时 根据 其 配置 情况 随机 分 配 S 个 Token 。 
这 种 方法 的 负载 平衡 效果 还 是 不 错 的 ， 因 为 目 然 界 的 数据 大 人 致 钙 比较 
随机 的 ， 虽 然 可 能 出 现 某 段 范 围 的 数据 特别 多 的 情况 (如 baidu、sina 等 
域名 下 的 网 页 特别 多 ) ， 但 是 只 要 切 分 足够 细 ， 即 $ 足 够 大 ， 负 载 还 是 
比较 均衡 的 。 这 个 方法 的 问题 是 可 欣 性 较 差 ， 痢 节点 加 入 /离开 系统 

时 ， 集 群 中 的 原 有 节点 都 需要 扫描 所 有 的 数据 从 而 找 出 属于 新 节点 的 
数据 ，Merkle 树 也 需要 全 部 更 新 ;另外 ， 增 量 归 档 /备份 变 得 几乎 不 可 


分 已 
有 此? 


e 数 据 范 围 等 分 + 随机 分 配 。 为 了 解决 上 种 方法 的 问题 ， 首 移 将 数据 的 
司 等 分 为 Q=NxS 份 (N= 机 器 个 数 ，S= 每 台 机 器 的 虚拟 节点 
数 ) ， 然 后 每 台 机 器 随机 选择 S 个 分 割 点 作为 Token。 和 上 种 方法 一 
样 ， 这 种 方法 的 负载 也 比较 均衡 ， 并 且 每 台 机 天 都 可 以 对 属于 每 个 艺 


险 希 空 


围 的 数据 维护 一 颗 逻 辑 上 的 Merkle 树 ， 新 世 点 加 入 /离开 时 只 需 扫描 间 
分 数据 进行 同步 ， 并 更 新 这 部 分 数据 对 应 的 逻辑 Merkle 树 ， 增 量 归 档 


也 变 得 简单 。 


男 外 ，Dynamo 对 单机 的 前 后 台 任 务 资源 分 配 也 做 了 一 些 工 作 。 
Dynamo 中 同步 操作 、 写 操作 重 试 等 后 人 台 任 务 较 多 。 为 了 不 影响 正 间 的 
读 写 服务 ， 需 要 对 后 合 任务 能 够 使 用 的 资源 做 出 限制 。Dynamo 中 维护 
一 个 资源 授权 系统 。 该 系统 将 整个 机 右 的 资源 切 分 成 多 个 片 ， 监 控 60 
秒 内 的 磁盘 读 写 响 应 时 间 ， 事 务 超时 时 间 及 锁 冲突 情况 ， 根 据 监控 信 
居 算 出 机 大 人 负载 从 而 动态 调整 分 配给 后 台 任 务 的 资源 片 个 数 。 


5.1.5 读 写 流程 


Dynamo 的 读 写 流程 如 图 5-3 和 图 5-4 所 示 。 


根据 主键 获取 副本 所 在 的 节点 


每 个 副本 将 数据 写 人 本 地 


回复 客户 端 写 人 成 功 


图 5-3 Dynamo 写 入 流程 


根据 主键 获取 副本 所 在 的 节点 


将 获取 或 冲突 解决 后 的 结果 回 


R 个 副本 返回 的 
结果 不 一 致 ? 


恨 据 冲突 处 理 规则 合并 多 个 副 
本 的 返回 结果 


使 用 冲突 解决 后 的 结果 更 新 不 
- 致 的 副本 


图 5-4 Dynamo 读 了 流程 


Dynamo 写 入 数据 时 ， 首 先 ， 根 据 一 致 性 哈 希 算法 计算 出 每 个 数据 副本 
所 在 的 存储 节操 ， 其 中 一 个 副本 作为 本 次 写 操作 的 协调 者 。 接 看 ， 协 
调 者 并 发 地 往 所 有 其 他 副本 发 送 写 请 求 ， 每 个 副本 将 接收 到 的 数据 写 
入 本 地 ， 协 调 者 也 将 数据 写 入 本 地 。 当 某 个 副本 写 入 成 功 后 ， 回 复 协 
调 着 。 如 果 发 给 菏 个 副本 的 写 请 求 失败 ， 协 调 壮 会 将 它 加 入 重 试 列表 
不 断 重 试 。 等 到 W-1 个 副本 回复 写 入 成 功 后 〈 即 加 上 协调 者 共 W 个 副本 


写 入 成 功 ) ， 协 调 者 可 以 回复 客户 端 写 和 成功。 协调 者 回复 客户 端 成 
功 后 ， 还 会 继续 等 竺 或 者 重 试 ， 直 到 所 有 的 副本 都 写 和 成功。 


Dynamo 读 取 数 据 时 ， 首 先 ， 根 据 一 致 性 哈 希 算法 计算 出 每 个 副本 所 在 
的 存储 节操 ， 其 中 一 个 副本 作为 本 次 读 操 作 的 协调 者 。 接 春 ， 协 调 关 
根据 负载 策略 选择 R 个 副本 ， 并 发 地 回 它 们 发 送 读 请 求 。 每 个 副本 读 取 
本 地 数据 ， 协 调 着 也 读 取 本 地 数据 。 当 茶 个 副本 读 取 成 功 后 ， 回 复 协 
调 者 读 取 结 果 。 等 到 R-1 个 副本 回复 读 取 成 功 后 ( 即 加 上 协调 者 共 R 个 
副本 读 取 成 功 ) ， 协 调 者 可 以 回复 客户 端 。 这 里 分 为 两 种 情况 ， 如 果 R 
个 副本 返回 的 数据 完全 一 致 ， 将 某 个 副本 的 读 取 结果 回复 客户 端 ; 否 
则 ， 需 要 根据 冲突 处 理 规 则 合并 多 个 副本 的 读 取 结 有 果 。Dynamo 系 统 默 
认 的 舍 略 是 根据 修改 时 间 玲 选择 最 新 的 数据 ， 当 然 用 户 也 可 以 目 定 义 
冲突 处 理 方法 。 读 取 过 程 中 如 果 发 现 菜 些 副 本 上 的 数据 版 本 太 旧 ， 
Dynamo 内 部 会 异步 发 起 一 次 读 取 修复 操作 ， 使 用 冲突 解决 后 的 结果 修 
正 错误 的 副本 。 


5.1.6 单机 实现 
Dynamo 的 存储 节点 包含 三 个 组 件 ， 请 求 协调 、 成 员 和 故障 检测 、 存 储 
引擎。 


Dynamo 设 计 支 持 可 插 拔 的 存储 引 敬 ， 比 如 Berkerly DB (BDB) ， 
MySQL InoDB 等 。 存 储 的 需求 很 多 ， 设 计 成 可 插 拔 的 形式 允许 用 户 根 


据 应 用 特点 选择 合适 的 存储 引擎 ， 比 如 BDB 存 储 的 对 象 大 小 一 般 在 几 
十 KB 之 内 ， 而 MySQL 可 以 处 理 更 大 的 对 象 。 用 户 会 根据 应 用 对 象 大 小 
选择 存储 引擎 ， 默 认为 BDB 。 


请 求 协调 组 件 采 用 基于 事件 驱动 的 设计 ， 每 个 客户 端的 读 写 请 求 对 应 
一 个 状态 机 ， 系 统 根 据 发 生 的 事件 及 状态 机 中 的 状态 决定 下 一 步 的 操 
作 。 比 如 读 取 操 作对 应 的 状态 包括 : 


e 协 调 者 发 送 读 请 求 到 其 他 节点 ; 


e 如 有 果 请 求 其 他 节点 返回 失败 ， 需 要 按照 一 定 的 策略 重 试 ; 
e 如 有 宁 到 达 时 间 限 制 成 功 的 和 点 仍然 小 于 R-1I 个 ， 返 回 容 户 问 请求 超 
时 ; 


e 合 并 协调 背 及 其 他 R-1 个 下 点 的 读 取 结 订 ， 并 返回 客户 问 ， 合 并 的 结 
果 可 能 包含 多 个 冲突 版 本 ， 如 果 设 置 了 冲突 解决 方法 ， 协 调 者 还 需要 
解决 冲突 。 


读 操 作成 功 返 回 客户 端 以 后 对 应 的 状态 机 不 会 立即 被 销 驱 ， 而 是 等 待 
一 小 段 时 间 ， 这 段 时 间 内 可 能 还 有 一 些 世 点 会 返回 过 期 的 数据 ， 协 调 
者 将 更 新 这 些 玉 点 的 数据 到 最 新 版 本 ， 这 个 过 程 称 为 读 取 修 复 。 


5.1.7 讨论 


Dynamo 采 用 无 中 心太 点 的 P2P 设 计 ， 增 加 了 系统 可 扩展 性 ， 但 同时 带 
来 了 一 致 性 问题 ， 影 响 上 层 应 用 。 男 外 ， 一 致 性 问题 也 使 得 异常 情况 
下 的 测试 变 得 更 加 困难 ， 由 于 Dynamo 只 保证 最 基本 的 最 终 一 致 性 ， 多 
客户 站 并 发 操作 的 时 候 很 难 预测 操作 结果 ， 也 很 难 预 测 不 一 致 的 时 间 
窗口 ， 影 响 测 试用 例 设 计 。 


总 体 上 看 ，Dynamo 在 Amazon 的 使 用 场景 有 限 ， 后 续 的 很 多 系统 ， 如 
Simpledb， 采 用 其 他 设计 思路 以 提供 更 好 的 一 致 性 。 主 流 的 分 布 式 系统 
一 般 都 带 有 中 心 季 点 ， 这 样 能 够 简化 设计 ， 而 且 中 心 市 点 只 维护 少量 
元 数据 ， 一 般 不 会 成 为 性 能 瓶颈 。 


从 Amazon、Facebook 等 公司 的 实践 经 验 可 以 得 出 ，Dynamo 及 其 开源 实 
现 Cassandra 在 实践 中 受到 的 关注 逐渐 减少 ， 无 中 心 让 点 的 设计 短期 之 
内 难以 成 为 主流 。 另 一 方面 ，Dynamo 综 合 使 用 了 各 种 分 布 式 技术 ， 在 
实践 过 程 中 可 以 选择 性 借鉴 。 


5.2 淘宝 Tair 


Tair 是 淘宝 开发 的 一 个 分 布 式 键 / 值 存储 引擎 。Tair 分 为 持久 化 和 非 持 久 
化 两 种 使 用 方式 ， 非 持久 化 的 Tair 可 以 看 成 是 一 个 分 布 式 缓存 ， 持 久 化 
的 Tair 将 数据 存放 于 人 磁 副 中 。 为 了 解决 磁盘 损坏 导致 数据 丢失 ，Tair 可 

以 配置 数据 的 备份 数目 ，Tair 目 动 将 一 份 数据 的 不 同 备份 放 到 不 同 的 也 


扩 上 ， 当 有 节 反 发生 异 前 ， 无 法 正常 提供 服务 的 时 候 ， 其 余 的 节操 会 


, "I 
继续 提供 服务 。 
5.2.1 系统 架构 


Tair 作 为 一 个 分 布 式 系统 ， 是 由 一 个 中 心 控制 攻 点 和 者 干 个 服务 节点 组 
成 。 其 中 ， 中 心 控 制 节 点 称 为 Config Server， 服 务 世 点 称 为 Data 
Server。Config Server 负 责 管理 所 有 的 Data Server， 维 护 其 状态 信息 ; 
Data Server 对 外 提供 各 种 数据 服务 ， 并 以 心跳 的 形式 将 目 喘 状况 汇报 给 
Config Server。Config Server 是 控制 点 ， 而 且 是 单 点 ， 目 前 采用 一 主 一 
备 的 形式 来 保证 可 靠 性 ， 所 有 的 Data Server 地 位 都 是 等 价 的 。 


图 5-5 是 Tair 的 系统 架构 图 。 客 户 端 首先 请 求 Config Server 获 取 数 据 所 在 
的 Data Server， 接 着 往 Data Server 发 送 读 写 请 求 。Tair 允 许 将 数据 存放 


到 多 台 Data Server， 以 实现 异常 容错 。 


图 5-5 Tair 系 统 架 构 
5.2.2 关键 问题 
(1) 数据 分 布 


根据 数据 的 主键 计算 哈 希 值 后 ， 分 布 到 Q 个 桶 中 ， 桶 是 负载 均衡 和 数据 
迁移 的 基本 单位 。Config Server 按 照 一 定 的 策略 把 每 个 桶 指派 到 不 同 的 
Data Server 上 。 因 为 数据 按照 主键 计算 哈 希 值 ， 所 以 可 以 认为 每 个 桶 中 
的 数据 基本 是 平衡 的 ， 只 要 保证 棚 分 布 的 均衡 性 ， 驶 能 够 傈 证 数据 分 
布 的 均衡 性 。 根 据 Dynamo 论 文中 的 实验 结论 ，Q 取 值 需要 远大 于 集群 
的 物理 机 万 数 ， 例 如 Q 取 值 10240。 


(2) 容错 


当 某 台 Data Server 故 障 不 可 用 时 ，Config Server 能 够 检测 到 。 每 个 哈 希 
桶 在 Tair 中 存储 多 个 副本 ， 如 果 是 备 副本 ， 那 么 Config Server 会 重新 为 
其 指定 一 台 Data Server， 如 果 是 持久 化 存储 ， 还 将 复制 数据 到 新 的 Data 
Server 上 。 如 果 是 主 副本 ， 那 么 ConfigServer 首 先 将 某 个 正常 的 备 副本 
提升 为 主 副本 ， 对 外 提供 服务 。 接 着 ， 再 选择 另外 一 台 Data Server 增 加 
一 个 备 副 本 ， 确 保 数据 的 备份 数 。 


(3) 数据 迁移 


机 器 加 入 或 者 负载 不 均衡 可 能 导致 桶 迁移 ， 迁 移 的 过 程 中 需要 保证 对 
外 服务 。 当 迁移 发 生 时 ， 假 设 Data Server A 要 把 桶 3、4、5 迁 移 到 Data 
Server B。 迁 移 完成 前 ， 客 户 端 的 路 由 表 没有 变化 ， 客 户 问 对 3、4、5 
的 访问 请 求 都 会 路 由 到 A。 现 在 假设 3 还 没 开 始 迁 移 ，4 正 在 迁移 中 ，5 
已 经 迁移 完成 。 那 么 如 果 对 3 访问 ，A 直 接 服 务 ;， 如 果 对 5 访问 ，A 会 把 
请 求 转 发 给 B， 并 且 将 B 的 返回 结果 返回 给 用 户 ; 如 宁 对 4 访问 ， 由 A 处 
理 ， 同 时 如 果 是 对 4 的 修改 操作 ， 会 记录 修改 日 志 ， 等 到 桶 4 迁移 完成 
时 ， 还 要 把 修改 日 志 发 送 到 B， 在 B 上 应 用 这 些 修改 操作 ， 直 到 A 和 B 之 
间 数 据 完全 一 致 迁移 才 真 正 完 成 。 


(4) Config Server 


客户 端 缓存 路 由 表 ， 大 多 数 情 况 下 ， 客 户 端 不 需要 访问 Config 
Server,Config Server 宕 机 也 不 影响 客户 端正 常 访问 。 每 次 路 由 的 变更 ， 
Config Server 都 会 将 新 的 配置 信息 推 给 Data Server 。 在 客户 端 访问 Data 
Server 的 上 时候， 会 发 送 客户 端 缓存 的 路 由 表 的 版 本 号 。 如 果 Data Server 
发 现 客户 端的 版 本 号 过 旧 ， 则 会 通知 客户 端 去 Config Server 获 取 一 份 新 
的 路 由 表 。 如 果 客 户 端 访问 某 台 Data Server 发 生 了 不 可 达 的 情况 (该 
Data Server 可 能 宕 机 了 ) ， 客 户 端 会 主动 去 Config Server 获 取 新 的 路 由 
表 。 


(5) Data Server 


Data Server 负 责 数据 的 存储 ， 并 根据 Config Server 的 要 求 完 成 数据 的 复 
制 和 迁移 工作 。Data Server 具 备 抽象 的 存储 引擎 层 ， 可 以 很 方便 地 添加 
新 存储 引擎 。Data Server 下 有 一 个 插件 容 絮 ， 可 以 动态 加 载 / 凶 载 插 

件 ， 如 图 5-6 所 示 。 


请 求 处 理 插件 


图 5-6 Data Server 内 部 结构 


Tair 存 储 引 警 有 一 个 抽象 层 ， 只 要 满足 存储 引擎 需 要 的 接口 ， 就 可 以 很 
方便 地 替换 Tair 底 层 的 存储 引擎 。Tair 默 认 包含 两 个 存储 引擎 : Mdb 和 
Fdb， 此 外 ， 还 支持 Berkerly DB、Tokyo Cabinet、InnoDB、Leveldb 等 
各 种 存储 引擎。 


5.2.3 讨论 


Amazon Dynamo 玉 用 P2P 染 构 ， 而 在 Tair 中 引入 了 中 心太 态 Config 
Server。 这 种 方式 很 容易 处 理 数 据 的 一 致 性 ， 不 再 需要 向 量 时 钟 、 数 据 
回 传 、Merkle 树 、 神 突 处 理 等 复杂 的 P2P 技 术 。 另 外 ， 中 心 节点 的 负载 
很 低 。 笔 者 认为 ， 分 布 式 键 值 系统 的 整体 架构 应 该 参考 Tair， 而 不 是 


Dynamo ° 


当然 ，Tair 最 主要 的 用 途 在 于 分 布 式 缓存 ， 持 和 久 化 存储 起 步 比较 晚 ， 在 
实现 细节 上 也 有 一 些 不 尽 如 人 意 的 地 方 。 例 如 ，Tair 持 久 化 存储 通过 复 
制 技术 来 提高 可 靠 性 ， 然 而 ， 这 种 复制 是 异步 的 。 因 此 ， 当 有 Data 
Server 发 生 故 障 时 ， 客 尸 有 可 能 在 一 定时 间 内 读 不 到 最 新 的 数据 ， 其 至 
发 生 最 新 修改 的 数据 丢失 的 情况 。 


第 6 章 分 布 式 表格 系统 


分 布 式 表 格 系 统 对 外 提供 表格 模型 ， 每 个 表格 由 很 多 行 组 成 ， 通 过 主 
键 唯一 标识 ， 每 一 行 包含 很 多 列 。 整 个 表格 在 系统 中 全 局 有 序 ， 适 用 
3.3.2 节 中 讲 的 顺序 分 布 。 


Google Bigtable 是 分 布 式 表格 系统 的 始 但 ， 它 采用 双 层 结构 ， 奔 层 采用 
GFS 作 为 持久 化 存储 层 。GFS+Bigtable 双 层 架 构 是 一 种 里 程 碑 式 的 架 
构 ， 其 他 系统 ， 包 括 Microsoft 分 布 式 存储 系统 Windows Azure Storage 以 
及 开源 的 Hadoop 系 统 ， 均 为 其 模仿 者 。Bigtable 的 问题 在 于 对 外 接口 不 
够 丰富 ， 因 此 ，Google 后 续 开 发 了 两 套 系 统 ， 一 套 是 Megastore， 构 建 
在 Bigtable 之 上 ， 提 供 更 加 丰富 的 使 用 接口 ;另外 一 套 是 Spanner， 文 持 
跨 多 个 数据 中 心 的 数据 库 事 务 ， 下 一 章 会 专门 介绍 。 


本 章 首 先 详细 介绍 Bigtable 的 架构 及 实现 ， 接 着 分 析 Megastore 的 架构 ， 


最 后 介绍 Microsoft Azure Storage 的 架构 。 


6.1 Google Bigtable 


Bigtable 是 Google 开 发 的 基于 GFS 和 Chubby 的 分 布 式 表格 系统 。Google 
的 很 多 数据 ， 包 括 Web 索 引 、 卫 星 图 像 数 据 等 在 内 的 海量 结构 化 和 半 结 
构 化 数据 ， 都 存储 在 Bigtable 中 。 与 Google 的 其 他 系统 一 样 ，Bigtable 的 
设计 理念 是 构建 在 廉价 的 硬件 之 上 ， 通 过 软件 层面 提供 自动 化 容错 和 
线性 可 扩展 性 能 


Bigtable 系 统 由 很 多 表格 组 成 ， 每 个 表格 包含 很 多 行 ， 每 行 通过 一 个 主 
键 (Row Key) 唯一 标识 ， 每 行 又 包含 很 多 列 (Column) 。 某 一 行 的 
某 一 列 构成 一 个 单元 (Cell) ， 每 个 单元 包含 多 个 版 本 的 数据 。 整 体 上 
看 ，Bigtable 是 一 个 分 布 式 多 维 映 射 表 ， 如 下 所 示 : 


(row:string,column:string,timestamp:int64)- > string 


另外 ，Bigtable 将 多 个 列 组 织 成 列 族 (column family) ， 这 样 ， 列 名 由 
两 个 部 分 组 成 : (column familyqualifier) 。 列 族 是 Bigtable 中 访问 控制 
的 基本 单元 ， 也 就 是 说 ， 访 问 权限 的 设置 是 在 列 族 这 一 级 别 上 进行 

的 。Bigtable 中 的 列 族 在 创建 表格 的 时 候 需 要 预先 定义 好 ， 个 数 也 不 允 
许 过 多 ; 人 然而， 每 个 列 族 包含 哪些 qualifier 是 不 需要 预先 定义 的 ， 
qualifier 可 以 任意 多 个 ， 适 合 表 示 半 结构 化 数据 。 


Bigtable 数 据 的 存储 格式 如 图 6-1 所 示 。 


"com.cnn.Www" 


图 6-1 Bigtable 数 据 存储 格式 


Bigtable 中 的 行 主键 可 以 是 任意 的 字符 串 ， 最 大 不 超过 64KB。Bigtable 
表 中 的 数据 按照 行 主键 进行 排序 ， 排 序 使 用 的 是 字典 序 。 图 6-1 中 行 主 
键 com.cnn.www 是 域名 www.cnn.com 变 换 后 的 结果 ， 这 样 做 的 好 处 是 使 
得 所 有 www.cnn.com 下 的 子 域名 在 系统 中 连续 存放 。 这 一 行 数据 包含 两 
个 列 族 : “contents” 和 “anchor”。 其 中 ， 列 族 “anchor” 又 包含 两 个 列 ， 


qualifier 分 别 为 “cnnsi.com” 和 “my: look.ca”。 


Google 的 很 多 服务 ， 比 如 Web 检 索 和 用 户 的 个 性 化 设置 ， 都 需要 保存 不 
同时 间 的 数据 ， 这 些 不 同 的 数据 版 本 必须 通过 时 间 惟 来 区 分 。 图 6-1 中 
的 人 、t5 和 t6 表 示 体 存 了 三 个 时 间 点 获取 的 网 页 。 为 了 从 化 不 同 版 本 的 
数据 筷 理 ，Bigtable 提 供 了 两 种 设置 : 一 种 生 保 留 最 近 的 N 个 不 同 版 
本 ， 另 一 种 是 傈 留 限 定时 间 内 的 所 有 不 同 版 本 ， 比 如 可 以 保存 最 近 10 
天 的 所 有 不 同 版 本 的 数据 。 失 歼 的 版 本 将 会 由 Bigtable 的 垃圾 回收 机 制 
目 动 删除 。 


6.1.1 架构 


Bigtable 构 建 在 GFS 之 上 ， 为 文件 系统 增加 一 层 分 布 式 索引 层 。 另 外 ， 


Bigtable 依 赖 Google 的 Chubby ( 即 分 布 式 锁 服 务 ) 进行 服务 器 选举 及 全 
局 信息 维护 。 


如 图 6-2 所 示 ，Bigtable 将 大 表 划 分 为 大 小 在 100~200MB 的 子 表 
(tablet) ， 每 个 子 表 对 应 一 个 连续 的 数据 范围 。Bigtable 主 要 由 三 个 部 
分 组 成 : 客户 端 程 序 库 (Client) 


` 一 个 主 控 服务 器 (Master) 和 多 个 
子 表 服务 器 (Tablet Server) 。 


eo 客户 端 程序 库 
元 数据 操作 人 


E 控 服务 带 


执行 Bigtable 元 数 
据 操作 负载 均 生 


读 写 数据 


打开 锁 文件 


Tablet Server 


Tablet Server Tablet Server 


读 写 数据 


故障 恢复 、 监 控 存储 操作 日 志 及 


存储 元 数据 
执行 Master 选举 


于 表 SStable 数据 


图 6-2 Bigtable 的 整体 架构 


e 客 户 端 程序 库 (Client) : 提供 Bigtable 到 应 用 程序 的 接口 ， 应 用 程序 
通过 客户 端 程序 库 对 表格 的 数据 单元 进行 增 、 删 、 查 、 改 等 操作 。 客 
户 端 通 过 Chubby 锁 服务 获取 一 些 控制 信息 ， 但 所 有 表格 的 数据 内 容 都 
在 客户 端 与 子 表 服 务 郁 之 间 直 接 传 送 ; 


e 主 控 服 务 器 (Master) : 管理 所 有 的 子 表 服 务 器 ， 包 括 分 配子 表 给 子 
表 服 务 而 ， 指 导 子 表 服 务 左 实现 子 才 的 合并 ， 接 受 来 目 子 表 服 务 郁 的 
子 表 分 裂 消 思 ， 监 控 子 表 服 务 右 ， 在 子 表 服 务 器 之 间 进 行 负载 均衡 并 
实现 子 表 服 务 器 的 故障 恢复 等 。 


e 子 表 服 务 器 (Tablet Server) : 实现 子 表 的 装载 / 卸 出 、 表 格 内 容 的 读 
和 写 ， 子 表 的 合并 和 分 裂 。Tablet Server 服 务 的 数据 包括 操作 日 志 以 及 
每 个 子 表 上 的 sstable 数 据 ， 这 些 数据 存储 在 故 层 的 GFS 中 。 


Bigtable 依 赖 于 Chubby 锁 服务 完成 如 下 功能 : 


1) 选取 并 保证 同一 时 间 内 只 有 一 个 主 控 服务 器 ; 
2) 存储 Bigtable 系 统 引 导 信 息 ; 
3) 用 于 配合 主 控 服务 器 发 现 子 表 服 务 器 加 入 和 下 线 ; 


4) 获取 Bigtable 表 格 的 schema 信 息 及 访问 控制 信息 。 


Chubby 有 是 一 个 分 布 式 锁 服 务 ， 撒 层 的 核心 算法 为 Paxos。Paxos 算 法 的 
实现 过 程 需 要 一 个 “多 数 派 ” 就 某 个 值 达成 一 致 ， 进 而 才能 得 到 一 个 分 
布 式 一 致 性 状态 。 也 就 是 说 ， 只 要 一 半 以 上 的 节点 不 发 生 故 障 ， 
Chubby 束 能 够 正常 提供 服务 。Chubby 服 务 部 署 在 多 个 数据 中 心 ， 典 型 
的 部 署 为 两 地 三 数据 中 心 五 副本 ， 同 城 的 两 个 数据 中 心 分 别 部 署 两 个 
副本 ， 异 地 的 数据 中 心 部 署 一 个 副本 ， 任 何 一 个 数据 中 心 整体 发 生 故 
障 都 不 影响 正常 服务 。 


Bigtable 包 含 三 种 类 型 的 表格 : 用户 表 (User Table) 、 元 数据 表 (Meta 
Table) 和 根 表 (Root Table) 。 其 中 ， 用 户 表 存 储 用 户 实际 数据 ;元 数 
据 表 存储 用 户 表 的 元 数据 ; 如 子 表 位 置信 息 、SSTable 及 操作 日 志文 件 
编号 、 日 志 回 放 点 等 ， 根 表 用 来 存储 元 数据 表 的 元 数据 ， 根 表 的 元 数 
据 ， 也 就 是 根 表 的 位 置信 息 ， 又 称 为 Bigtable 引 导 信息 ， 存 放 在 Chubby 
系统 中 。 客 户 端 、 主 控 服务 器 以 及 子 表 服 务 器 执行 过 程 中 都 需要 依赖 
Chubby 服 务 ， 如 果 Chubby 发 生 故 障 ，Bigtable 系 统 整体 不 可 用 。 


6.1.2 数据 分 布 


Bigtable 中 的 数据 在 系统 中 切 分 为 大 小 100~200MB 的 子 表 ， 所 有 的 数 
据 按照 行 主键 全 局 排序 。Bigtable 中 包含 两 级 元 数据 ， 元 数据 表 及 根 
表 。 用 户 表 在 进行 某 些 操作 ， 比 如 子 表 分 袭 的 时 候 需要 修改 元 数据 

表 ， 元 数据 表 的 某 些 操作 又 需要 修改 根 表 。 通 过 使 用 两 级 元 数据 ， 提 
高 了 系统 能 够 支持 的 数据 量 。 假 设 平均 一 个 子 表 大 小 为 128MB， 每 个 


子 表 的 元 信息 为 IKB， 那 么 一 级 元 数据 能 够 文 持 的 数据 量 为 128MBx 
(128MB/1KB) =16TB， 两 级 元 数据 能 够 支持 的 数据 量 为 16TBx 
(128MB/1KB) =2048 PB， 满 足 几 乎 所 有 业务 的 数据 量 需 求 。 如 图 6-3 
所 示 。 


用 户 表 1 


根 表 
-级 元 数据 表 


Chubby 文 付 


图 6-3 Bigtable 数 据 结构 


客 刻 端 查 询 时 ， 前 和 完 从 Chubby 中 读 取 根 表 的 位 置 ， 接 春 从 根 表 读 取 所 
需 的 元 数据 子 表 的 位 置 ， 最 后 就 可 以 从 元 数据 子 表 中 找到 待 查 询 的 用 
户 子 表 的 位 置 。 为 了 减少 访问 开销 ， 客 户 端 使 用 了 缓存 (cache) 和 预 
取 (prefetch) 技术 。 子 表 的 位 置信 息 被 缓存 在 客户 端 ， 客 户 端 在 寻 址 
时 首先 查找 缓存 ， 一 旦 缓存 为 空 或 者 缓存 信息 过 期 ， 客 户 端 就 需要 请 
求 子 表 服 务 紫 的 上 一 级 元 数据 表 获 取 位 置信 息 ， 比 如 用 户 子 表 绥 存 过 
期 需要 请 求 元 数据 表 ， 元 数据 子 表 缓 存 过 期 需要 请 求 根 表 ， 根 表 缓 存 


过 期 需要 读 取 Chubby 中 的 引导 信息 。 如 果 缓 存 为 空 ， 最 多 需要 三 次 请 
求 ， 如 果 缓 存 信息 过 期 ， 最 多 需要 六 次 请 求 ， 其 中 三 次 用 来 确定 信息 
是 过 期 的 ， 另 外 三 次 获取 新 的 地 址 。 预 取 则 是 在 每 次 访问 元 数据 表 时 
不 仅仅 读 取 所 需 的 子 表 元 数据 ， 而 是 读 取 连 续 的 多 个 子 表 元 数据 ， 这 
样 碍 找 下 一 个 子 表 时 不 需要 再 次 访问 元 数据 表 。 


6.1.3 复制 与 一 致 性 


Bigtable 系 统 保证 强 一 致 性 ， 同 一 个 时 刻 同一 个 子 表 只 能 被 一 台 Tablet 
Server 服 务 ， 也 就 是 说 ，Master 将 子 表 分 配给 某 个 Tablet Server 服 务 时 需 
要 确保 没有 其 他 的 Tablet Server 下 在 服务 这 个 子 表 。 这 是 通过 Chubby 的 
互 不 锁 机 制 保证 的 ，Tablet Server 启 动 时 需要 获取 Chubby 互 不 锁 ， 当 
Tablet Server 出 现 故障 ，Master 需 要 等 到 Tablet Server 的 互 不 锁 失效 ， 才 
能 把 它 上 面 的 子 表 迁移 到 其 他 Tablet Server 。 


Bigtable 的 底层 存储 系统 为 GFS (参见 前 面 4.1 闻 ) 。GFS 本 质 上 是 一 个 
弱 一 致 性 系统 ， 其 一 致 性 模型 只 保证 “同一 个 记录 至 少 成 功 写 入 一 
次 ”， 但 是 可 能 存在 重复 记录 ， 而 且 可 能 存在 一 些 补 零 (padding) 记 
录 。 


Bigtable 写 入 GFS 的 数据 分 为 两 种 : 


e 操 作 日 志 。 当 Tablet Server 发 生 故 障 时 ， 它 上 面 服务 的 子 表 会 被 集群 
中 的 其 他 Tablet Server 加 载 继续 提供 服务 。 加 载 子 表 可 能 需要 回放 操作 


日 志 ， 每 条 操作 日 志 都 有 唯一 的 序号 ， 通 过 它 可 以 去 除 重复 的 操作 日 


e 每 个 子 表 包 含 的 SSTable 数 据 。 如 采写 入 GFS 失 败 可 以 重 试 并 产生 多 条 
重复 记录 ， 但 羡 Bigtable 只 会 索引 最 后 一 条 写 入 成 功 的 记录 。 


Bigtable 本 质 上 是 构建 在 GFS 之 上 的 一 层 分 布 式 索 引 ， 通 过 它 解 决 了 
GFS 迁 留 的 一 致 性 问题 ， 大 大 催化 了 用 户 使 用 。 


6.1.4 容错 


Bigtable 中 Master 对 Tablet Server 的 监控 是 通过 Chubby 完 成 的 ，Tablet 
Server 在 初始 化 时 都 会 从 Chubby 中 获取 一 个 独占 锁 。 通 过 这 种 方式 所 有 
的 Tablet Server 基 本 信息 被 保存 在 Chubby 中 一 个 称 为 服务 器 目录 

(Server Directory) 的 特殊 目录 之 中 。Master 通 过 检测 这 个 目录 以 随时 
获取 最 新 的 Tablet Server 信 息 ， 包 括 目前 活跃 的 Tablet Server， 以 及 每 个 
Tablet Server 上 现 已 分 配 的 子 表 。 对 于 每 个 Tablet Server,Master 会 定期 询 
问 其 独占 锁 的 状态 。 如 采 Tablet Server 的 锁 丢 失 或 者 没有 回应 ， 则 此 时 
可 能 有 两 种 情况 ， 要 么 是 Chubby 出 现 了 问题 ， 要 么 是 Tablet Server 出 现 
了 问题 。 对 此 Master 百 移 目 己 符 试 获取 这 个 独占 锁 ， 如 有 果 失 败 说 明 是 
Chubby 服 务 出 现 问题 ， 否 则 说 明 是 Tablet Server 出 现 了 问题 。Master 将 
中 止 这 个 Tablet Server 并 将 其 上 的 子 表 全 部 迁移 到 其 他 Tablet Server 。 


每 个 子 表 持 久 化 的 数据 包含 两 个 部 分 : 操作 日 志 以 及 SSTable。Tablet 
Server 发 生 故 障 时 某 些 子 表 的 一 些 更 新 操作 还 在 内 存 中 ， 需 要 通过 回放 
操作 日 志 来 恢复 。 为 了 提高 性 能 ，Tablet Server 没 有 为 它 服务 的 每 个 子 
表 写 一 个 操作 日 志文 件 ， 而 是 把 所 有 它 服务 的 子 表 的 操作 日 志 混 在 一 
起 写 入 GFS， 每 条 日 志 通 过 < 表格 编号 ,， 行 主键 ,日志 序 列 号 > 来 唯一 
标识 。 当 某 个 Tablet Server 宕 机 后 ，Master 将 该 Tablet Server 服 务 的 子 表 
分 配给 其 他 Tablet Server。 为 了 减少 Tablet Server 从 GFS 读 取 的 日 志 数 据 
量 ，Master 将 选择 一 些 Tablet Server 对 日 志 进 行 分 段 排序 。 排 好 序 后 ， 

同一 个 子 表 的 操作 日 志 连 续 存 放 ，Tablet Server 恢 复 某 个 子 表 时 只 需要 
读 取 该 子 表 对 应 的 操作 日 志 即 可 。Master 需 要 尽 可 能 选择 负载 低 的 
Tablet Server 执 行 排序 ， 并 且 需 要 处 理 排 序 任务 失败 的 情况 。 


Bigtable Master 启 动 时 需要 从 Chubby 中 获取 一 个 独占 锁 ， 如 果 Master 发 
生 故 障 ，Master 的 独占 锁 将 过 期 ， 管 理 程序 会 自动 指定 一 个 新 的 Master 
服务 器， 它 从 Chubby 成 功 获取 独占 锁 后 可 以 继续 提供 服务 。 


6.1.5 负载 均衡 


子 表 是 Bigtable 负 载 均衡 的 基本 单位 。Tablet Server 定 期 癌 Master 汇 报 状 
态 ， 当 状态 检测 时 发 现 某 个 Tablet Server 上 的 负载 过 重 时 ，Master 会 自 
动 对 其 进行 负载 均衡 ， 即 执行 子 表 迁 移 操作 。 子 表 迁 移 分 为 两 步 : 第 
一 步 请 求 原 有 的 Tablet Server 色 载 子 表 ; 第 二 步 选 择 一 台 负 载 较 低 的 
Tablet Server 加 载 子 表 。Master 发 送 命 令 请 求 原 有 的 Tablet Server 纯 载 了 于 


表 ， 原 有 Tablet Server 解 除 加 在 子 表 上 的 互 斥 锁 ， 而 新 的 Tablet Server 加 
载 子 表 时 需要 首先 获取 互 斥 锁 。 如 果 原 有 Tablet Server 发 生 故 障 ， 新 的 
Tablet Server 需 要 等 待 原 有 Tablet Server 加 在 子 表 上 的 互 不 锁 过 期 。 子 表 
迁移 前 原 有 的 Tablet Server 会 对 其 执行 Minor Compaction 操 作 ， 将 内 存 
中 的 更 新 操作 以 SSTable 文 件 的 形式 转 储 到 GFS 中 ， 因 此 ， 负 载 均 衡 带 
来 的 子 表 迁 移 在 新 的 Tablet Server 上 不 需要 回放 操作 日 志 。 


子 表 迁 移 的 过 程 中 有 短暂 的 时 间 需 要 停 服 务 ， 为 了 尽 可 能 减少 停 服务 
的 时 间 ，Bigtable 内 部 采用 两 次 Minor Compaction 的 策略 。 具 体操 作 如 
下 : 


1) 原 有 Tablet Server 对 子 表 执行 一 次 Minor Compaction 操 作 ， 操 作 过 程 
中 仍然 允许 写 操作 。 


2) 停止 子 表 的 写 服 务 ， 对 子 表 再 次 执行 一 次 Minor Compaction 操 作 。 
由 于 第 一 次 Minor Compaction 过 程 中 写 入 的 数据 一 般 比 较 少 ， 第 二 次 


Minor Compaction 的 时 间 会 比较 短 。 


由 于 Bigtable 负 载 均衡 的 过 程 中 会 停 一 会 读 写 服务 ， 负 载 均衡 策略 不 应 
当 过 于 激进 。 人 负载 均 衡 涉及 的 因素 很 多 ，Tablet Server 通 过 心跳 定时 将 
读 、 写 个 效 、 磁 列 、 内 存 负载 等 信息 发 送 给 MastepMaster 根 据 负 载 计算 
公式 计算 出 需要 迁移 的 子 表 ， 然 后 放 入 迁移 队列 中 等 待 执行 。 


6.1.6 分 裂 与 合并 


随 着 数据 不 断 写 入 和 删除 ， 某 些 子 表 可 能 太 大 ， 某 些 子 表 可 能 太 小 ， 
需要 执行 子 表 分 裂 与 合并 操作 。 顺 序 分 布 与 哈 硕 分 布 的 区 别 在 于 哈 硕 
分 布 往往 是 静态 的 ， 而 顺序 分 布 是 动态 的 ， 需 要 通过 分 裂 与 合并 操作 


动态 调整 。 


Bigtable 每 个 子 表 的 数据 分 为 内 存 中 的 MemTable 和 GFS 中 的 多 个 
SSTable， 由 于 Bigtable 中 同一 个 子 表 只 被 一 台 Tablet Server 服 务 ， 进 行 
分 裂 时 比较 简单 。Bigtable 上 执行 分 裂 操作 不 需要 进行 实际 的 数据 找 贝 
工作 ， 只 需要 将 内 存 中 的 索引 信息 分 成 两 份 ， 比 如 分 裂 前 子 表 的 范围 
为 (起 始 主键 ， 结 束 主键 ]， 在 内 存 中 将 索引 分 成 〈 起 始 主键 ， 分 裂 主 
键 ] 和 (分裂 主键 ,结束 主键] 两 个 范围 。 例 如 ， 某 个 子 表 (1，10] 的 分 
裂 主键 为 5， 那 么 ， 分 裂 后 生成 的 两 个 子 表 的 数据 范围 为 : (1，5] 和 
(5，10]。 分 裂 以 后 两 个 子 表 各 目 写 不 同 的 MemTable， 等 到 执行 
Compaction 操 作 时 再 根据 分 裂 后 的 子 表 范 围 生成 不 同 的 SSTable， 无 用 
的 数据 目 然 成 为 垃圾 被 回收 。 


分 裂 操作 由 Tablet Server 发 起 ， 需 要 修改 元 数据 ， 即 用 户 表 的 分 裂 需 要 
修改 元 数据 表 ， 元 数据 表 的 分 裂 需 要 修改 根 表 。 分 裂 操作 需要 增加 一 

个 子 表 ， 相 当 于 在 元 数据 表 中 增加 一 行 ， 通 过 Bigtable 的 行事 务 保证 原 
子 性 。 只 要 修改 元 数据 表 成 功 ， 分 裂 操作 就 算 成 功 。 分 裂 成 功 后 Tablet 
Server 将 向 Master 汇 报 ， 如 果 出 现 Tablet Server 故 障 ，Master 可 能 丢失 汇 


报 分 裂 消 有 息 。 新 的 Tablet Server 加 载 这 个 子 表 时 将 发 现 它 已 经 分 裂 ， 并 


通知 Master 。 


合并 操作 由 Master 发 起 ， 相 比分 笋 操 作 要 更 加 复 洒 。 由 于 行 合 并 的 两 个 
子 表 可 能 被 不 同 的 Tablet Server 加 载 ， 合 并 的 第 一 步 需 要 迁移 其 中 一 个 
子 表 ， 以 使 它们 在 同一 个 Tablet Server 上， 接着 通知 Tablet Server 执 行 子 
表 合并 。 子 表 合 并 操作 有 具体 实现 时 非常 麻烦 ， 有 兴趣 的 读者 可 以 目 行 
思考 。 


6.2 Google Megastore 


Google Bigtable 架 构 把 可 扩展 性 基本 做 到 了 极 人 致 ，Megastore 则 是 在 
Bigtable 系 统 之 上 提供 友好 的 数据 库 功能 支持 ， 增 强 易 用 性 。Megastore 
是 介 于 传统 的 关系 型 数据 库 和 NoSQL 之 间 的 存储 技术 ， 它 在 Google 内 
部 使 用 广泛 ， 如 Google App Engine、 社 交 类 应 用 等 。 


互联 网 应 用 往往 可 以 根据 用 户 进行 拆 分 ， 比 如 Email 系统 、 相 册 系 统 、 
广告 投放 效果 报表 系统 、 购 物 网 站 商品 存储 系统 等 。 同 一 个 用 户 内 部 
的 操作 需要 保证 强 一 致 性 ， 比 如 要 求 文 持 事务 ， 多 个 用 户 之 间 的 操作 
往往 只 需要 最 终 一 致 性 ， 比 如 用 户 之 间 发 Email 不 要 求 立即 收 到 。 
此 ， 可 以 根据 用 户 将 数据 拆 分 为 不 同 的 子 集 分 布 到 不 同 的 机 器 
Google 进 一 步 从 互联 网 应 用 特性 中 抽取 实体 组 (Entity ee 概念 ， 


从 而 实现 可 扩展 性 和 数据 库 语 义 之 间 的 一 种 权衡 ， 同 时 获得 NoSQL 和 
RDBMS 的 优点 。 


如 图 6-5 所 示 ， 用 户 定义 了 User 和 Photo 两 张 表 ， 主 键 分 别 为 <user_id> 

和 <user id,photo id> ， 每 一 个 用 户 的 所 有 数据 构成 一 个 实体 组 。 

中 ，User 表 是 实体 组 根 表 ，Photo 表 是 实体 组 子 表 。 实 体 组 根 表 中 的 一 
行 称 为 根 实 体 (Root ee ， 对 应 Bigtable 存 储 系统 中 的 一 行 。 根 实 

体 除 了 存放 用 户 数据 ， 还 需要 存放 Megastore 事 务 及 复制 操作 所 需 的 元 

数据 ， 包 括 操作 日 志 。 


CREATE TABLE User { 


regquired int64 user id; 
reguired string name; 
} PRIMARY KEY (user id), ENTITY GROUP ROOT 
CREATE TABLE Photo 1 
required int64 user id; 
required int32 photo id; 
regquired inté4 time; 
regquired string fuill url; 
optional string thumbnail url; 
repeated string tag; 
} PRIMARY KEY (user id, photo id), 
IN TABLE User, 
ENTITY GROUP KEY (user id) REFERENCES User; 


CREATE LOCAL INDEX PhotosByTime 
ON Photo (user id, time); 


CREATE GLOBAL INDEX PhotosByTag 


ON Photo (tag)} STORING (thumbnail url); 


图 6-5 实体 组 语法 


表 6-1 中 有 两 个 实体 组 ， 其 中 第 一 个 实体 组 包含 前 三 行 数据 ， 第 二 个 实 
体 组 包含 最 后 一 行 数据 。 第 一 行 数据 来 目 User 表 ， 有 是 第 一 个 实体 组 的 
Root Entity， 存 放 编 号 为 101 的 用 户 数据 以 及 这 个 实体 组 的 事务 及 复制 
操作 元 数据 ;第 二 行 和 第 三 行 数 据 来 目 Photo 表 ， 存 放 用 户 的 照片 数 
据 。 


表 6-1 实体 组 示例 


Photo url 


Bigtable 通 过 单行 事务 保证 根 实体 操作 的 原子 性 ， 也 束 是 说 ， 同 一 个 实 
体 组 的 元 数据 操作 十 原 了 于 的 。 男 外 ， 同 一 个 实体 组 在 Bigtable 中 连续 存 
放 ， 因 此 ， 多 数 情况 下 同一 个 用 户 的 所 有 数据 属于 同一 个 Bigtable 子 
表 ， 分 布 在 同一 台 Bigtable Tablet Server 机 器 上 ， 从 而 提供 较 高 的 扫描 
性 能 和 事务 性 能 。 当 然 ， 如 末 茶 一 个 实体 组 过 大 ， 比 如 超过 一 个 子 表 
的 大 小 ， 这 样 的 实体 组 跨 多 个 子 表 ， 可 以 分 布 到 多 台 机 器 。 


6.2.1 系统 架构 


如 图 6-6 所 示 ，Megastore 系 统 由 三 个 部 分 组 成 : 


副本 C (备份 ) 


副本 A ( 读 写 ) 副本 B ( 读 写 ) 


应 用 服务 天 应 用 服务 器 


Megastore 客户 端 库 Megastore 客户 羡 库 


复制 服务 带 复制 服务 带 复制 服务 天 


日 专 二 数据 日 专 二 数据 日 专 十 数据 


图 6-6 Megastore 整 体 染 构 


e 窜 户 端 库 : 提供 Megastore 到 应 用 程序 的 接口 ， 应 用 程序 通过 客户 端 操 
作 Megastore 的 实体 组 。Megastore 系 统 大 部 分 功能 集中 在 客户 端 ， 包 括 
映射 Megastore 操 作 到 Bigtable， 事 务 及 并 发 控制 ， 基 于 Paxos 的 复制 ， 
将 请 求 分 送 给 复制 服务 右 ， 通 过 协调 者 实现 快速 读 等 。 


e 复 制服 务 紫 ， 接受 客户 疹 的 用 户 请 求 并 转发 到 所 在 机 房 的 Bigtable 实 
例 ， 用 于 解决 跨 机 房 连接 数 过 多 的 问题 。 


。 协 调 者 ， 存 储 每 个 机 房 本 地 的 实体 组 是 否 处 于 最 新 状态 的 信息 ， 用 于 
实现 快速 读 。 


Megastore 的 功能 主要 分 为 三 个 部 分 : 映射 Megastore 数 据 模型 到 
Bigtable， 事 务 及 并 发 控制 ， 路 机 房 数据 复制 及 读 写 优化 。Megastore 百 


先 解析 用 户 通过 客户 端 传 入 的 SQL 请 求 ， 接 着 根据 用 户 定 义 的 
Megastore 数 据 模型 将 SQL 请 求 转化 为 对 底层 Bigtable 的 操作 。 


在 表 6-1 中 ， 假 设 用户 (user id 为 101) 往 Photo 表 格 中 插入 photo_id 分 别 
为 500 和 502 的 两 行 数据 。 这 就 意味 着 ， 需 要 向 Bigtable 写 入 主键 

(rowkey) 分 别 为 <101，500> 和 <101，502> 的 两 行 数据 。 为 了 保 
证 写 事务 的 原子 性 ，Megastore 首 先 会 往 该 用 户 的 根 实体 (Bigtable 中 主 
键 为 <101> 的 数据 行 ， 写 入 操作 日 志 ， 通 过 Bigtable 的 单行 事务 实现 
操作 日 志 的 原子 性 。 接 着 ， 回 放 操 作 日 志 ， 并 写 入 <101，500> 和 < 
101，502> 这 两 行 数据 。 这 两 行 数据 在 Bigtable 属 于 同一 个 版 本 ， 客 户 
端 要 么 读 到 全 部 行 ， 要 么 一 行 也 读 不 到 。 接 下 来 分 别 介绍 事务 与 并 发 
控制 、Paxos 数 据 复制 以 及 读 写 流程 。 


6.2.2 实体 组 


如 岁 6-7， 总 体 上 看 ， 数 据 拆 分 成 不 同 的 实体 组 ， 每 个 实体 组 内 的 操作 

志 采 用 基于 Paxos 的 方式 同步 到 多 个 机 房 ， 保 证 强 一致 性 。 实 体 组 之 
间 通 过 分 布 式 队列 的 方式 保证 最 终 一 致 性 或 者 两 阶段 提交 协议 的 方式 
实现 分 布 式 事务 。 我 们 先 看 单个 集群 的 情况 ， 和 暂时 名 略 基 于 Paxos 的 复 
制 机 制 。 


单个 实体 组 内 
支持 ACID 事务 
号 
数据 划分 | 
为 多 个 实体 组 | 
《| 跨 实体 组 之 间 
、\ 最 终 一 致 性 
| 
| 
| 
J 
每 个 实体 组 的 数据 强 同 
步 复 制 到 多 个 数据 中 心 


. 实体 组 的 操作 
日 志和 数据 存 
储 在 Bigtable 


图 6-7 Megastore 实 体 组 


实体 ( Bigtable 一 行 ) 


大 部 分 读 写 事务 只 es | sd 
操作 单个 实体 组 


全 局 索引 跨 实 
体 组 ， 最 终 一 


致 性 


跨 实 体 组 事务 通过 
两 阶段 提交 协议 保证 


通过 异步 队列 支持 
跨 实体 组 最 终 一 致 性 


e 单 集群 实体 组 内 部 ， 同 一 个 实体 组 内 部 支持 满足 ACID 特 性 的 事务 。 
数据 库 系统 事务 实现 时 总 是 会 提 到 REDO 日 志和 UNDO 日 志 ， 在 
Megastore 系 统 中 通过 REDO 日 志 的 方式 实现 事务 。 同 一 个 实体 组 的 
REDO 日 志 都 写 到 这 个 实体 组 的 根 实体 中 ， 对 应 Bigtable 系 统 中 的 一 
行 ， 从 而 保证 REDO 日 志 操 作 的 原子 性 。 客 尸 端 写 完 REDO 日 志 后 ， 事 
务 操作 成 功 ， 接 下 来 的 事情 只 是 回放 REDO 日 志 。 如 果 回 放 REDO 日 志 
失败 ， 比 如 某 些 行 所 在 的 子 表 服务 器 宕 机 ， 事 务 操作 也 可 成 功 返 回 客 
户 端 。 后 续 的 读 操 作 如 果 要 求 读 取 最 新 的 数据 ， 需 要 先 回 放 REDO 日 
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e 单 集群 实体 组 之 间 : 实体 组 之 间 一 般 采 用 分 布 式 队列 的 方式 提供 最 终 
一 致 性 ， 子 表 服 务 器 上 有 定时 扫描 线程 ， 发 送 跨 实 体 组 的 操作 到 目的 
实体 组 。 如 果 需 要 保证 多 个 实体 组 之 间 的 强 一 致 性 ， 即 实现 分 布 式 事 
务 ， 只 能 通过 两 阶段 提交 协议 加 锁 协 调 。 


6.2.3 并 发 控制 
(1) 读 事 务 


Megastore 提 供 了 三 种 读 取 模式 ， 最 新 读 取 (current read) 、 快 照 读 取 
(snapshot read) 、 非 一 致 性 读 取 (inconsistent read) 。 其 中 ， 最 新 读 
取 和 快照 读 取 总 是 在 单个 实体 组 内 完成 的 。 在 开始 某 次 最 新 读 取 之 
前 ， 需 要 确保 所 有 已 提交 的 写 操作 已 经 全 部 生效 ， 然 后 读 取 最 后 一 个 
版 本 的 数据 。 对 于 快照 读 了 到， 系统 取出 已 知 的 最 后 一 个 完整 提交 的 事 
务 版 本 并 读 取 该 版 本 的 数据 。 与 最 新 读 取 不 同 的 是 ， 快 照 读 取 的 时 候 
可 能 有 部 分 事务 已 经 提交 但 没有 生效 (REDO 日 志 同 步 成 功 但 没有 回放 
完成 ) 。 最 新 读 取 和 快照 读 取 利用 了 Bigtable 存 储 多 版 本 数据 的 特性 ， 
保证 不 会 读 到 未 提交 的 事务 。 非 一 致 性 读 取 忽略 日 志 的 状态 而 直接 读 
取 Bigtable 内 存 中 最 新 的 值 ， 可 能 读 到 不 完整 的 事务 。 


(2) 写 事务 


Megastore 事 务 中 的 写 操作 采用 了 预 写 式 日 志 (Write-ahead 日 志 或 REDO 
日 志 ) ， 也 就 是 说 ， 只 有 当 所 有 的 操作 都 在 日 志 中 记录 下 来 后 ， 写 操 


作 才 会 对 数据 执行 修改 。 一 个 写 事务 总 是 开始 于 一 个 最 新 读 取 ， 以 便 
于 确认 下 一 个 可 用 的 日 志 位 置 ， 将 用 户 操作 聚集 到 日 志 绥 冲 区 ， 分 配 
一 个 更 高 的 时 间 礁 ， 最 后 通过 Paxos 复 制 协 议 提 交 到 下 一 个 可 用 的 日 志 
位 置 。Paxos 协 议 使 用 了 乐观 锁 的 机 制 : 尽管 可 能 有 多 个 写 操作 同时 试 
图 写 同 一 个 日 志 位 置 ， 但 最 后 只 有 一 个 会 成 功 。 其 他 失败 的 写 操作 都 
会 观察 到 成 功 的 写 操作 ， 然 后 中 止 并 重 试 。 


写 事务 流程 大 致 如 下 : 
1) 读 取 : 获取 最 后 一 次 提交 的 事务 的 时 间 惟 和 日 志 位 置 ; 
2) 应 用 逻辑， 从 Bigtable 读 取 并 且 将 写 操作 聚集 到 日 志 绥 冲 区 中 ; 


3) 提交 : 将 缓冲 区 中 的 操作 日 志 追 加 到 多 个 机 房 的 Bigtable 和 集群， 通 
过 Paxos 协 议 保 证 一 致 性 ; 


4) 生效 : 应 用 操作 日 志 ， 更 新 Bigtable 中 的 实体 和 索引 

5) 清理 : 删除 不 再 需要 的 数据 。 

假如 有 两 个 先 读 后 写 (read-modify-write) 事务 T1 和 T2， 其 中 : 
T1:Read a;Read b;Set c=atb; 


T2:Read a;Read d;Set c=atd; 


假设 事务 T1 和 T2 对 同一 个 实体 组 并 发 执行 ，T1 执 行 时 读 取 a 和 b,T2 读 取 
a 和 d， 接 着 T1 和 T2 同 时 提交 。Paxos 协 议 保证 T1 和 T2 中 有 且 只 有 一 个 事 
务 提交 成 功 ， 假 如 T1 提 交 成 功 ，T2 将 重新 读 取 a 和 d 后 再 次 通过 Paxos 协 
议 提交 。 对 同一 个 实体 组 的 多 个 事务 被 串 行 化 ，Megastore 之 所 以 能 提 

供 可 串 行 化 的 隅 离 级 别 ， 得 益 于 定义 的 实体 组 数据 模型 ， 由 于 同一 个 

实体 组 同时 进行 的 更 新 往往 很 少 ， 事 务 冲 突 导致 重 试 的 概率 很 低 。 


6.2.4 复制 


对 于 多 个 集群 之 间 的 操作 日 志 同 步 ，Megastore 系 统 采用 的 是 基于 Paxos 
的 复制 协议 机 制 ， 对 于 普通 的 Master-Slave 强 同步 机 制 ，Master 宕 机 
后 ，Slave 如 果 需 要 切换 为 Master 继 续 提 供 服务 需要 首先 确认 Master 宕 
机 ， 检 测 Master 宕 机 这 段 时 间 是 需要 停止 写 服 务 的 ， 否 则 将 造成 数据 不 
一 致 。 基 于 Paxos 的 复制 协议 机 制 主 要 用 来 解决 机 器 宕 机 时 停止 写 服务 
的 问题 ，Paxos 协 议 允 许 在 只 是 怀疑 Master 宕 机 的 情况 下 由 Slave 发 起 修 
改 操作 ， 虽 然 可 能 出 现 多 点 同时 修改 的 情况 ， 但 Paxos 协 议 将 采用 投票 
的 机 制 人 证 只 有 一 个 让 点 的 修改 操作 成 功 。 这 种 方式 对 服务 的 影响 更 
小 ， 系 统 可 用 性 更 好 。 


Megastore 通 过 Paxos 协 议 将 数据 复制 到 多 个 数据 中 心 ， 而 且 机 器 故障 有 自 
动 切换 不 停 写 服务 ， 保 证 了 高 可 靠 性 和 高 可 用 性 。 当 然 ，Megastore 间 
车 时 往往 会 要 求 将 写 操作 强 同步 到 多 个 机 房 ， 攻 至 是 不 同 地域 的 多 个 
机 房 ， 因 此 ， 延 时 比较 长 ， 一 般 为 几 十 毫秒 甚至 上 百 上 毫秒 。 


6.2.5 索引 


Megastore 数 据 模 型 中 有 一 个 非常 重要 的 概念 : 索引 (Index) ， 分 为 两 
大 类 : 


e 局 部 索引 (local index) : 局 部 索引 是 单个 实体 组 内 部 的 ， 用 于 加 速 
单个 实体 组 内 部 的 查找 。 局 部 索引 属于 某 个 实体 组 ， 实 体 组 内 数据 和 
局 部 索引 的 更 新 操作 是 原子 的 。 在 某 个 实体 组 上 执行 事务 操作 时 先 记 
录 REDO 日 志 ， 回 放 REDO 日 志 时 原子 地 更 新 实体 组 内 部 的 数据 和 局 部 
索引 。 图 6-5 中 的 PhotosByTime 就 是 一 个 局 部 索引 ， 了 映射 到 Bigtable 相 当 
于 每 个 实体 组 中 增加 一 些 主 键 为 (user id,time,photo_id) 的 行 。 


e 全 局 索 3| (global index) : 全 局 索引 横 跨 多 个 实体 组 。 图 6-5 中 的 
PhotosByTag 残 是 一 个 全 局 索引 ， 了 映射 到 Bigtable 是 一 张 新 的 索引 表 ， 主 
键 为 (tag,user_id,photo_id) ， 即 索引 字段 +Photo 数 据 表 主 键 。 


除了 这 两 大 类 索引 外 ，Megastore 还 提供 了 一 些 额外 的 索引 特性 ， 主 要 
和 包 仿 以 下 儿 个 : 


eSTORING 子 句 : 通过 在 索引 中 增加 STORING 字 句 ， 系 统 可 以 在 索引 
中 元 余 一 些 和 常用 的 列 字 段 ， 从 而 不 需要 查询 基本 表 ， 减 少 一 次 查询 操 
作 。 元 余 存 储 的 问题 使 索引 数据 量变 得 更 大 。PhotosByTag 索 引 中 见 余 
存储 了 thumbnail_url， 根 据 tag 查 询 photo 的 thumbnail_url 时 只 需要 一 次 读 
取 索 引 表 即 可 。 


e 可 重复 索引 : Megastore 效 据 菜 些 中 某 些 字段 是 可 重复 的 ， 相 应 的 索引 
束 是 可 重复 索引 。 这 就 意味 这 ， 一 行 数据 可 能 对 应 多 行 索 引 。 
PhotosByTag 是 重复 索引 ， 每 个 photo 可 能 有 不 同 tag， 分 别 对 应 不 同 的 索 
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6.2.6 协调 者 


(1) 快速 读 


Paxos 协 议 要 求 读 取 最 新 的 数据 至 少 需要 经 过 一 半 以 上 的 副本 ， 然 而 ， 
如 朱 不 出 现 故 障 ， 每 个 副本 基本 都 是 最 新 的 。 也 融 是 说， 能 够 利用 本 
地 读 取 (local reads) 实现 快速 读 ， 减 少 读 取 延 时 和 跨 机 房 操 作 。 
Megastore 引 入 协调 者 来 记录 每 个 本 机 房 Bigtable 实 例 中 的 每 个 实体 组 的 
数据 是 否 最 新 。 如 果实 体 组 的 数据 最 新 ， 读 取 操 作 只 需要 本 地 读 取 ， 
没有 跨 机 房 操 作 。 实 体 组 有 更 新 操作 时 ， 写 操作 需要 将 协调 者 记录 的 
实体 组 状态 更 新 为 无 效 ， 如 采 某 个 机 房 的 Bigtable 集 群 写 入 失败 ， 需 要 
首先 使 得 相应 的 协调 者 记录 的 实体 组 状态 失效 以 后 写 操作 才 可 以 成 功 
返回 客户 端 。 


(2) 协调 者 的 可 用 性 


每 次 写 操 作 都 需要 涉及 协调 者 ， 因 此 协调 者 出 现 故障 将 会 导致 系统 不 
可 用 。 当 协调 者 因为 网 络 或 者 主机 故障 等 原因 导致 不 可 用 时 ， 需 要 检 
测 到 协调 者 故障 并 将 它 隔离 。 


Megastore 使 用 了 Chubby 锁 服务 ， 协 调 者 在 启动 时 从 数据 中 心 获 取 
Chubby 锁 。 为 了 处 理 请 求 ， 协 调 者 必须 持 有 Chubby 锁 。 一 旦 因为 出 现 
问题 导致 锁 失 效 ， 协 调 者 就 会 恢复 到 一 个 默认 的 保守 状态 : 认为 所 有 
它 所 能 看 见 的 实体 组 都 是 失效 的 。 如 果 协 调 者 的 锁 失 效 ， 写 操作 可 以 
安全 地 将 它 忽略 ; 然而 ， 从 协调 者 不 可 用 到 锁 失 效 有 一 个 短暂 〈 几 十 
秒 ) 的 Chubby 锁 过 期 时 间 ， 这 个 时 间 段 写 操作 都 会 失败 。 所 有 的 写 入 
者 都 必须 等 待 协调 者 的 Chubby 锁 过 期 。 


(3) 竞争 条 件 


除了 可 用 性 问题 ， 对 于 协调 着 的 读 写 协 议 必 须 满 足 一 系列 的 苋 争 条 
件 。 失 效 操 作 总 是 安全 的 ， 但 是 生效 操作 必须 谨慎 处 理 。 在 异步 网 络 
环境 中 ， 消 息 可 能 乱 序 到 达 协 调 者 。 每 条 生效 和 失效 消息 都 带 有 日 志 
位 置信 息 。 如 果 协 调 者 先 收 到 较 晚 的 失效 操作 再 收 到 较 早 的 生效 操 
作 ， 生 效 操 作 将 被 忽略 。 


协调 者 从 启动 到 退出 为 一 个 生命 周期 ， 每 个 生命 周期 用 一 个 唯一 的 序 
号 标识 。 生 效 操作 只 人 允许 在 最 近 一 次 对 协调 者 进行 读 取 操作 以 来 序号 
没有 发 生变 化 的 情况 下 修改 协调 者 的 状态 。 


6.2.7 读 取 流程 


Megastore 的 读 取 流程 如 网 6-8 所 示 。Megastore 最 新 读 取 流 程 如 下 。 


上 多 数 派 读 取 
: (可 选 ) 


v 


$F 


4 获取 操作 日 志 ; 


应 用 操作 日 志 
生效 实体 组 


查询 数据 


图 6-8 Megastore 读 取 流 程 


1) 本 地 查询 。 查 询 本 地 副本 的 协调 者 来 决定 这 个 实体 组 上 数据 是 否 已 


经 是 最 新 的 。 


2) 发 现 位 置 。 确 认 一 个 最 高 的 已 经 提交 的 操作 日 志 位 置 ， 并 选择 最 新 
的 副本 ， 具 体操 作 如 下 : 


e 本 地 读 取 (Local Read) : 如 果 本 地 查询 确认 本 地 副本 已 经 是 最 新 
的 ， 直 接 读 取 本 地 副本 已 经 提交 的 最 高 日 志 位 置 和 相应 的 时 间 惟 。 这 


实际 上 惑 是 前 面 拓 到 的 快速 读 。 


e 多 数 派 读 取 (Majority Read) : 如 果 本 地 副本 不 是 最 新 的 (或 者 本 地 
查询 、 本 地 读 取 超时 ) ， 从 多 数 派 副本 中 读 取 最 大 的 日 志 位 置 ， 然 后 
从 中 选取 一 个 啊 应 最 快 或 者 最 新 的 副本 ， 并 不 一 定 是 本 地 副本 。 


3) 追赶 。 一 旦 某 个 副本 被 选中 ， 就 采取 如 下 方式 使 其 追赶 到 已 知 的 最 
大 位 置 处 : 


e 获 取 操作 日 志 : 对 于 所 选 副 本 中 所 有 不 知道 Paxos 共 识 值 的 日 志 位 
置 ， 从 其 他 副本 中 读 取 。 对 于 所 有 不 确定 共识 值 的 日 志 位 置 ， 利 用 
Paxos 发 起 一 次 无 操作 的 写 (Paxos 中 的 no-op) 。Paxos 协 议 将 会 促使 大 
多 数 副 本 达成 一 个 共识 值 : 要 么 是 无 操作 写 ， 要 么 旦 以 前 已 提交 的 一 
次 写 操作 。 


e 应 用 操作 日 志 : 顺序 地 应 用 所 有 已 经 提交 但 还 没有 生效 的 操作 日 志 ， 
更 新 实体 组 的 数据 和 索引 信息 。 


4) 使 实体 组 生效 。 如 果 选 取 了 本 地 副本 且 原 来 不 是 最 新 的 ， 需 要 发 送 
一 个 生效 消 居 以 通知 协调 者 本 地 副本 中 这 次 读 取 的 实体 组 已 经 最 新 。 
生效 消息 不 需要 等 得 应 答 ， 如 果 请 求 失 败 ， 下 一 个 读 取 操作 会 重 试 。 


5) 查询 数据 。 在 所 选 副本 中 通过 日 志 中 记录 的 时 间 戳 读 取 指定 版 本 数 
据 。 如 采 所 选 副本 不 可 用 了 ， 重 新 选取 一 个 奉 代 副本 ， 执 行 妃 赶 操 


作 ， 然 后 从 中 读 取 数据 。 
6.2.8 写 入 流程 
Megastore 的 写 入 流程 如 图 6-9 所 示 。 


执行 完 一 次 完整 的 读 操 作 之 后 ， 下 一 个 可 用 的 日 志 位 置 ， 最 后 一 次 写 
操作 的 时 间 惟 ， 以 及 下 一 次 的 主 副本 (Leader) 都 知道 了 。 在 提交 时 刻 
所 有 的 修改 操作 部 被 打包 ， 同 时 还 包含 一 个 时 间 稚 、 下 一 次 主 副本 所 
和 名， 作为 提议 的 下 一 个 日 志 位 置 的 共识 值 。 如 采 该 值 被 大 多 数 副 本 通 
过 ， 写 将 被 应 用 到 所 有 的 副本 中 ， 人 否则 整个 事务 将 中 止 且 从 读 操作 开 
台 重 试 。 


让 副本 B | 副本 C | i 协调 者 C 


| 请 求 主 副本 接受 


拓 改 实体 组 |( 可 选 ) L 


应 用 操作 日 志 


图 6-9 Megastore 写 入 流程 
写 入 过 程 包括 如 下 几 个 步骤 : 


1) 请 求 主 副本 接受 : 请 求 主 副本 将 提议 的 共识 值 ( 写 事务 的 操作 日 
志 ) 作为 0 号 提议 。 如 果 成 功 ， 跳 至 步骤 3) 。 


2) 准备 : 对 于 所 有 的 副本 ， 运 行 Paxos 协 议 准 备 阶段 ， 即 在 当前 的 日 
志 位 置 上 使 用 一 个 比 以 前 所 有 提议 都 更 高 的 提议 号 进行 提议 。 将 提议 
的 共识 值 蔡 换 为 已 知 的 拥有 最 高 提议 号 的 副本 的 提议 值 。 


3) 接受 : 请 求 剩 余 的 副本 接受 主 副本 的 提议 ， 如 果 大 多 数 副 本 拒绝 这 
个 值 ， 返 回 步骤 2) 。Paxos 协 议 大 多 数 情况 下 主 副本 不 会 变化 ， 可 以 
忽略 准备 阶段 直接 执行 这 个 阶段 ， 这 就 是 Megastore 中 的 快速 写 。 


4) 使 实体 组 失效 ， 如 果 某 些 副本 不 接受 多 数 派 达成 的 共识 值 ， 将 协调 
者 记录 的 实体 组 状态 标记 为 失效 。 协 调 首 失效 操作 返回 前 写 操 作 不 能 
返回 客户 端 ， 从 而 防止 用 户 的 最 新 读 取 得 到 不 正确 的 结 


5) 应 用 操作 日 志 : 将 共识 值 在 尽 可 能 多 的 副本 上 应 用 生效 ， 更 新 实体 
组 的 数据 和 索引 信息 。 


6.2.9 讨论 


分 布 式 存储 系统 有 两 个 目标 : 一 个 是 可 扩展 性 ， 最 终 目 标 是 线性 可 扩 
展 ; 男 外 一 个 是 功能 ， 最 终日 标 是 支持 全 功能 SQL。Megastore 是 一 个 
介 于 传统 的 关系 型 数据 库 和 分 布 式 NoSQL 系 统 之 间 的 存储 系统 ， 融 合 
了 SQL 和 NoSQL 两 者 的 优势 。 


Megastore 的 主要 创新 点 包括 : 


e 提 出 实体 组 的 数据 模型 。 通 过 实体 组 划分 数据 ， 实 体 组 内 部 维持 关系 
数据 库 的 ACID 特性 ， 实 体 组 之 间 维 持 类 似 NoSQL 的 弱 一 致 性 ， 有 效 地 
融合 了 SQL 和 NoSQL 两 者 的 优势 。 为 外 ， 实 体 组 的 定义 方式 也 在 很 大 
程度 上 规避 了 影响 性 能 和 可 扩展 性 的 Join 操 作 。 


e 通 过 Paxos 协 议 同时 保证 高 可 靠 性 和 高 可 用 性 ， 既 把 数据 强 同步 到 多 
个 机 房 ， 又 做 到 发 生 故 障 时 自动 切换 不 影响 读 写 服务 。 另 外 ， 通 过 协 
调 者 和 优化 Paxos 协 议 使 得 读 写 操作 都 比较 高 效 。 


当然 ，Megastore 也 有 一 些 问题 ， 其 中 一 些 问题 来 源 于 Bigtable， 比 如 单 
副本 服务 ，SSD 支 持 较 弱 导 致 Megastore 在 线 实时 服务 能 力 上 有 一 定 的 
改进 空间 ， 整 体 架 构 过 于 复杂 ， 协 调 者 对 读 写 服务 和 运 维 复杂 上 度 的 影 
啊 。 因 此 ，Google 后 续 义 开发 了 一 套 革 命 性 的 Spanner 架 构 用 于 解决 这 


些 问 题 。 


6.3 Windows Azure Storage 


Windows Azure Storage (WAS) 是 微软 开发 的 云 存 储 系统 ， 包 括 三 种 
数据 存储 服务 : Windows Azure Blob、Windows Azure Table、Windows 
Azure Queue。 三 种 数据 存储 服务 共享 一 套 底层 架构 ， 在 微软 内 部 广泛 
用 于 社会 化 网 络 、 视 频 、 游 戏 、Bing 搜 索 等 业务 。 另 外 ， 在 微软 外 部 
也 有 成 和 于 上 万 个 云 存储 客户 。 


6.3.1 整体 架构 


WAS 部 署 在 不 同 地 域 的 多 个 数据 中 心 ， 依 赖 底 层 的 windows Azure 结 构 
控制 器 (Fabric Controller) 管理 便 件 资源 。 结 构 控制 器 的 功能 包括 节 
点 管理 ， 网 络 配置 ， 健 康 检查 ， 服 务 启 动 ， 关 闭 ， 部 署 和 升级 。 另 


外 ，WAS 还 通过 请 求 结构 控制 絮 获 取 网 络 拓扑 信息 ， 集 群 物理 部 署 以 
及 存储 广 点 人 硬件 配置 信息 。 


如 图 6-10 所 示 ，WAS 主 要 分 为 两 个 部 分 : 定位 服务 (Location 


Service,LS) 和 存储 区 (Storage Stamp) 。 


前 端 层 


跨 存 储 区 复制 


文件 流 屋 文件 流 层 
存储 区 内 复 ; 抽 存储 区 内 复制 


图 6-10 Azure storage 整 体 架 构 


e 定 位 服务 的 功能 包括 : 管理 所 有 的 存储 区 ， 管 理 用 户 到 存储 区 之 间 的 
映射 关系， 收集 存储 区 的 负载 信息 ， 分 配 新 用 户 到 负载 较 轻 的 存储 


区 。LS 服 务 目 身 也 分 布 在 两 个 不 同 的 地 域 以 实现 高 可 用 。LS 需 要 通过 
DNS 服务 来 使 得 每 个 账户 的 请 求 定位 到 所 属 存储 区 。 


。 每 个 存储 区 是 一 个 集群 ， 一 般 由 10~~20 个 机 染 组 成 ， 每 个 机 架 有 18 个 
存储 下 点 ， 提 供 大 约 2PB 存 储 容量 。 下 一 步 的 计划 是 扩大 存储 区 规模 ， 
使 得 每 个 存储 区 能 够 容纳 30PB 原 始 数据 。 存 储 区 分 为 三 层 : 文件 流 层 


(Stream Layer) 、 分 区 层 (Partition Layer) 以 及 前 端 层 (Front-End 


Layer) 8 


e 文 件 流 层 : 与 Google GFS 类 似 ， 提 供 分 布 式 文件 存储 。WAS 中 文件 称 
为 流 (streams) ， 文 件 中 的 Chunk 称 为 范围 (extent) 。 文 件 流 层 一 般 
不 直接 对 外 服务 ， 需 要 通过 服务 分 区 层 访问 。 


e 分 区 层 : 与 Google Bigtable 类 似 ， 将 对 象 划分 到 不 同 的 分 区 以 被 不 同 
的 分 区 服务 器 (Partition Server) 服务 ， 分 区 服务 器 将 对 象 持久 化 到 文 
件 流 层 。 


e 恒 产 层 : 前 闪 层 包括 一 系列 无 状态 的 web 服务 右 ， 这 些 Web 服 务 郁 完 

成 权限 验证 等 功能 并 根据 请 求 的 分 区 名 (Partition Name) 将 请 求 转发 

到 不 同 的 分 区 服务 器 。 分 区 映射 表 (Partition Map) 用 来 决定 应 该 将 请 
求 转化 到 哪个 分 区 服务 器 ， 前 端 服务 器 一 般 缓存 了 此 表 从 而 减少 一 次 

网 络 请 求 。 


另外 ，WAS 包 含 两 种 复制 方式 : 


e 存 储 区 内 复制 〈Intra-Stamp Replication) : 文件 流 层 实现 ， 同 一 个 
extent 的 多 个 副本 之 间 的 复制 模式 为 强 同 步 ， 每 个 成 功 的 写 操 作 必 须 保 
证 所 有 副本 都 同步 成 功 ， 用 来 实现 强 一 致 性 。 


e 跨 存储 区 复制 (Inter-Stamp Replication) : 服务 分 区 层 实 现 ， 通 过 后 
台 线 程 异步 复制 到 不 同 的 存储 区 ， 用 来 实现 异地 容 灾 。 


6.3.2 文件 流 层 


文件 流 层 提供 内 部 接口 供 服 务 分 区 层 使 用 。 它 提供 类 似 文件 系统 的 命 
名 至 间 和 API， 但 所 有 的 写 操作 只 能 是 退 加 ， 文 持 的 接口 包括 : 打开 性 
天 财 文 件 、 改 名 、 读 取 以 及 奶 加 到 文件 。 文 件 流 层 中 的 文件 称 为 流 ， 
每 个 流 包 侣 一 系列 的 extent。 每 个 extent 由 一 连 串 的 block 组 成 。 


如 图 6-11 所 示 ， 文 件 流 “//foo” 包 含 四 个 extent \E1、E2、E3、E4) 。 

个 extent 包 含 一 连 串 追加 到 它 的 block。 其 中 ，E1、E2 和 E3 是 已 经 加 封 

的 (sealed) ， 这 就 意味 着 不 允许 再 对 它们 追加 数据 ;E4 是 未 加 封 的 
(unsealed) ， 人 允许 对 它 执行 追加 操作 。 


指向 extent El 指向 extent E2 指向 extent E3 指 癌 extent E4 


extent E1- 加 封 extent E2- 加 封 extent E3- 加 封 extent E4- 未 加 封 


图 6-11 某 文 件 流 示 例 


block 是 数据 读 写 的 最 小 单位 ， 每 个 block 最 大 不 超过 4MB。 文件 流 层 对 

每 个 block 计 算 检验 和 (checksum) 。 读 取 操 作 总 是 给 定 某 个 block 的 边 

界 ， 然 后 一 次 性 连续 读 取 一 个 或 者 多 个 完整 的 block 数 据 ; 写 入 操作 读 

成 一 个 或 者 多 个 block 写 入 到 系统 。WAS 中 的 block 与 GFS 中 的 记录 
(record) 概念 是 一 致 的 。 


extent 是 文件 流 层 数据 复制 ， 负 载 均衡 的 基本 单位 ， 每 个 存储 区 默认 对 
每 个 extent 保 留 三 个 副本 ， 每 个 extent 的 默认 大 小 为 1GB。 如 果 存 储 小 对 
象 ， 多 个 小 对 象 可 能 共享 同一 个 extent; 如 果 存 储 大 对 象 ， 比 如 几 GB 甚 
至 TB， 对 象 被 切 分 为 多 个 extent。WAS 中 的 extent 与 GFS 中 的 chunk 概 念 
是 一 致 的 。 


stream 用 于 文件 流 层 对 外 接口 ， 每 个 stream 在 层级 命名 空间 中 有 一 个 名 
字 。WAS 中 的 stream 与 GFS 中 的 file 概 念 是 一 致 的 。 


文件 流 层 


分 区 层 
客户 端 


图 6-12 Azure 文 件 流 层 的 架构 
e 流 管理 器 (Stream Manager,SM) 


尝 管 理 右 维护 了 文件 流 层 的 元 数据 ， 包 括 文件 流 的 命名 空间 ， 文 件 流 
到 extent 之 间 的 映射 关系，extent 所 在 的 存储 节点 信息 。 男 外 ， 它 还 需 


要 监控 extent 存 储 证 点 ， 人 负责 整个 系统 的 全 局 控制 ， 如 extent 复 制 ， 负 
载 均 衡 ， 垃 圾 回收 无 用 的 extent， 等 等 。 流 管理 万 会 定期 通过 心跳 的 方 
式 轮 询 extent 存 储 方 点 。 流 管理 器 目 身 通过 Paxos 协 议 实现 高 可 用 性 。 


eextent 存 储 节点 (Extent Node,EN) 


extent 存 储 节 点 实际 存储 每 个 extent 的 副本 数据 。 每 个 extent 单 独 存储 成 
一 个 磁盘 文件 ， 这 个 文件 中 包含 extent 中 所 有 block 的 数据 及 checksum， 
以 及 针对 每 个 block 的 索引 信息 。extent 存 储 节 点 之 间 互 相通 信 找 贝 客户 
端 追 加 的 数据 ， 另 外 ，extent 存 储 下 点 还 需要 接受 流 管理 器 的 命令 ， 如 
创建 extent 副 本 ， 垃 圾 回收 指定 extent， 等 等 。 


e 客 户 端 库 (Partition Layer Client) 


客户 问 库 是 文件 流 层 提供 给 上 层 应 用 ( 即 分 区 层 ) 的 访问 接口 ， 它 是 
一 组 专用 接口 ， 不 遵守 POSIX 规 范 ， 以 库 文件 的 形式 提供 。 分 区 层 访 
问 文件 流 层 时 ， 首 移 访 问 流 管 理 亏 世上 氮 ， 获 取 与 之 进行 交互 的 extent 存 
储 世 点 信息 ， 然 后 直接 访问 这 些 存 储 万 点 ， 完 成 数据 存 取 工 作 。 


2. 复 制 及 一 致 性 


WAS 中 的 流 文件 只 允许 追加 ， 不 允许 更 改 。 追 加 操作 走 原子 的 ， 数 据 
追加 以 数据 块 (block) 为 单位 ， 多 个 数据 块 可 以 由 客户 端 竣 成 一 个 组 
冲 区 一 次 性 提交 到 文件 流 层 的 服务 端 ， 保 证 原子 性 。 与 GFS 一 样 ， 客 三 


端 妃 加 数据 块 可 能 失败 需要 重 试 ， 从 而 产生 重复 记录 ， 分 区 层 需要 处 
理 这 种 情况 。 


分 区 层 通过 两 种 方式 处 理 重复 记录 : 对 于 元 数据 (metadata) 和 操作 日 
志 流 (commit log streams) ， 所 有 的 数据 都 有 一 个 唯一 的 事务 编号 
(transaction sequence) ， 顺 序 读 取 时 忽略 编号 相同 的 事务 ， 对 于 每 个 
表格 中 的 行 数据 流 (row data streams) ， 只 有 最 后 一 个 追加 成 功 的 数据 
块 才 会 被 索引 ， 因 此 先前 退 加 失败 的 数据 块 不 会 被 分 区 层 读 取 到 ， 将 
来 也 会 被 系统 的 垃圾 回收 机 制 删除 。 


如 图 6-12，WAS 追 加 流程 如 下 : 


1) 如 果 分 区 层 客 户 端 没 有 缓存 当前 extent 信 息 ， 例 如 追加 到 新 的 流 文 
件 或 者 上 一 个 extent 已 经 颖 合 (sealed) ， 客 户 端 请 求 SM 创 建 一 个 新 的 


eXtent ; 


2) SM 根 据 一 定 的 策略 ， 如 存储 节点 负载 ， 机 架 位 置 等 ， 分 配 一 定数 
量 (默认 值 为 3 的 extent 副 本 到 EN。 其 中 一 个 extent 副 本 为 主 副本 ， 人 允 
许 客 户 端 写 操 作 ， 其 他 副本 为 备 副 本 ， 只 人 允许 接收 主 副本 同步 的 效 
据 。Extent 写 入 过 程 中 主 副 本 维持 不 变 ， 因 此 ，WAS 不 需要 类 似 GFS 中 
的 租约 机 制 ， 大 大 简化 了 妃 加 流程 ; 


3) 客户 端 写 请 求 发 送 到 主 副本 。 主 副本 将 执行 如 下 操作 : a) 决定 退 
加 的 数据 块 在 extent 中 的 位 置 ，b) 定 序 : 如 果 有 多 个 客户 端 往 同 一 个 


extent 并 发 追加 ， 主 副本 需要 确定 这 些 追加 操作 的 顺序 ;，c) 将 数据 块 
写 入 主 副本 目 身 ; 


4) 主 副本 把 待 追加 数据 发 给 某 个 备 副 本 ， 备 副本 接着 转发 给 其 他 备 副 
本 。 每 一 个 备 副 本 会 根据 主 副本 确定 的 顺序 执行 写 操作 ; 


5) 备 副本 副本 写成 功 后 应 答 主 副本 ; 


6) 如 果 所 有 的 副本 都 应 答 成 功 ， 主 副本 应 答 客 户 端 追 加 操作 成 功 ; 


奶 加 过 程 中 如 果 某 个 副本 出 现 故障 ， 客 户 端 追加 请 求 返回 失败 ， 接 着 
客户 端 将 联系 SM。SM 首 移 会 颖 合 失败 的 extent， 接 着 创建 一 个 新 的 
extent 用 来 提供 追加 操作 。SM 处 理 副 本 故障 的 平均 时 间 在 20ms 左 右 ， 
新 的 extent 创 建 完成 后 客户 端 追 加 操作 可 以 继续 ， 整 体 影响 不 大 。 


每 个 extent 副 本 都 维护 了 已 经 成 功 提交 的 数据 长 度 (commit length) ， 
如 果 出 现 异常 ， 各 个 副本 当前 的 长 度 可 能 不 一 怪 。SM 颖 合 extent 时 首 
先 请求 所 有 的 副本 获取 当前 长 度 ， 如 果 副 本 之 间 不 一 致 ，SM 将 选择 最 
小 的 长 度 值 作为 颖 合 后 的 长 度 。 如 有 果 颖 合 操作 的 过 程 中 某 个 副本 所 在 
的 节点 出 现 故 障 ， 颖 合 操 作 仍 然 能 够 成 功 执 行 ， 等 到 节点 重启 后 ，SM 
将 强制 该 节点 从 extent 的 其 他 副本 同步 数据 。 


文件 流 层 保证 如 下 两 点 : 


e 只 要 记录 被 退 加 并 成 功 啊 应 客 己 疾 ， 从 任何 一 个 副本 都 能 够 读 到 相同 
的 数据 ; 


。 即 使 追加 过 程 出 现 故 障 ， 一 旦 extent 被 锋 合 ， 从 任何 一 个 被 缝合 的 副 
本 都 能 够 读 到 相同 的 内 容 。 


3. 存 储 优化 


extent 人 存储 节点 面临 两 个 问题 ， 如 何 保证 磁 副 调度 公平 性 以 及 避免 磁 副 
随机 写 操作 。 


很 多 硬盘 通过 牺牲 公平 性 来 最 大 限度 地 提高 吞 叶 量 ， 这 些 磁 玛 优先 执 
行 大 块 顺序 读 写 操作 。 而 文件 流 层 中 既 有 大 块 顺序 读 写 操作 ， 也 有 大 
量 的 随机 读 取 操作 。 随 机 读 写 操作 可 能 被 大 块 顺序 读 写 操作 阻塞 ,在 
某 些 磁盘 上 甚至 观察 到 随机 IO 被 阻塞 高 达 2300ms 的 情况 。 为 此 ，WAS 
改进 了 IO 调 度 策略 ， 如 果 存 储 闻 点 上 某 个 磁盘 当前 已 发 出 请 求 的 期 望 
完成 时 间 超 过 100ms 或 者 最 近 一 段 时 间 内 某 个 请 求 的 响应 时 间 超 过 
200ms， 避 免 将 新 的 IO 请 求 调度 到 该 磁盘 。 这 种 策略 适当 牺牲 了 磁盘 的 
吞吐 量 ， 但 是 保证 公平 性 。 


文件 流 层 客户 只 妃 加 操作 应 答 成 功 要 求 所 有 的 副本 者 将 数据 持久 化 到 
磁盘。 这 种 集 略 提高 了 系统 的 可 靠 性 ,但 增加 了 写 操 作 延 时 。 每 个 存 
储 节点 上 有 很 多 extent， 这 些 extent 补 大量 分 区 层 上 的 客户 端 并 发 追 

加 ， 如 果 每 次 追加 都 需要 将 extent 文 件 刷 到 磁盘 中 ， 将 导致 大 量 的 随机 


写 。 为 了 减少 随机 写 ， 存 储 节 点 采用 单独 的 日 志 盘 (journal drive) 顺 
序 保存 节点 上 所 有 extent 的 追加 数据 ， 追 加 操作 分 为 两 步 : a) 将 待 追 

加 数据 写 入 日 志 盘 ; b) 将 数据 写 入 对 应 的 extent 文 件 。 操 作 a) 将 随机 
写 变 为 针对 日 志 盘 的 顺序 写 ， 一 般 来 说 ， 操 作 a) 先 成 功 ， 操 作 b) 只 

是 将 数据 保存 到 系统 内 存 中 。 如 果 节 点 发 生 故 障 ， 需 要 通过 日 志 盘 中 

的 数据 恢复 extent 文 件 。 通 过 这 种 策略 ， 可 以 将 针对 同一 个 extent 文 件 

的 连续 多 个 写 操作 合并 成 一 个 针对 磁盘 的 写 操作 ， 提 高 了 系统 的 吞吐 

量 ， 同 时 降低 了 延 时 。 


文件 流 层 还 有 一 种 抹 除 码 (erasure coding) 机 制 用 于 减少 extent 副 本 占 
用 的 空间 ，GFS 以 及 开源 的 HDFS 也 采用 了 这 个 机 制 。 每 个 数据 中 心 的 
extent 副 本 默认 都 需要 存储 三 份 ， 为 了 降低 存储 成 本 ， 文 件 流 层 会 对 已 
经 颖 合 的 extent 进 行 Reed-Solomon 编 码 [1]。 具体 来 讲 ， 文 件 流 层 在 后 台 
定期 执行 任务 ， 将 extent 划 分 为 N 个 长 度 大 致 相同 的 数据 段 ， 并 通过 
Reed-Solomon 算 法 计算 出 M 个 纠 错 码 段 用 于 纠 错 。 只 要 出 现 问题 的 数 
据 段 或 纠 错 码 段 总 和 小 于 或 者 等 于 M 个 ， 文 件 流 层 都 能 重建 整个 
extent。 推 荐 的 配置 是 N=10，M=4， 也 就 是 只 需要 1.4 倍 的 存储 空间 ， 
就 能 够 容忍 多 达 4 个 存储 节点 出 现 故障 。 


[1] 一 种 纠 错 码 ， 在 分 布 式 文件 系统 或 者 RAID 技 术 中 用 于 容 怒 多 个 副本 
或 者 磁 一 同时 离线 的 情况 。 


6.3.3 分 区 层 


分 区 层 构 建 在 文件 流 层 之 上 ， 用 于 提供 Table、Blob、Queue 等 数据 服 
务 。 分 区 层 的 一 个 重要 特性 是 提供 强 一 致 性 并 保证 事务 操作 顺序 。 


分 区 层 内 部 支持 一 种 称 为 对 象 表 《Object Table,OT) 的 数据 架构 ， 每 个 
OT 是 一 张 最 大 可 达 若 干 PB 的 大 表 。 对 象 表 被 动态 地 划分 为 连续 的 范围 
分 区 (RangePartition， 对 应 Bigtable 中 的 子 表 ) ， 并 分 散 到 WAS 存 储 区 
的 多 个 分 区 服务 器 (Partition Server) 上 。 范 围 分 区 之 间 互 相 不 重 胎 ， 
每 一 行 都 确保 只 在 一 个 范围 分 区 上 。 


WAS 存 储 区 包含 的 对 象 表 包括 账户 表 ，Blob 数 据 表 ，Entity 数 据 表 ， 
Message 数 据 表 。 其 中 ， 账 户 表 存储 每 个 用 户 账户 的 元 数据 及 配置 信 
上 县;，Blob、Entity、Message 数 据 表 分 别 对 应 WAS 中 的 Blob、Table、 


Message 服 务 。 


另外 ， 分 层 区 中 还 有 一 张 全 局 的 Schema 表格 《Schema Table) ， 保 证 所 
有 的 对 象 表格 的 schema 信 息 ， 即 每 个 对 象 表 包 含 的 每 个 列 的 名 字 ， 数 
据 类 型 及 其 他 属性 。 对 象 表 划 分 为 很 多 行 ， 每 个 行 通过 一 个 主键 

(Primary Key) 来 定位 ， 每 个 对 象 表 的 行 主键 包括 用 户 账户 名 ， 分 区 
名 以 及 对 象 名 三 个 部 分 。 系 统 内 部 还 维护 了 一 张 分 区 映射 表 (Partition 
Map) ， 用 于 记录 每 个 范围 分 区 当前 所 在 的 分 区 服务 器 。 


WAS 支 持 的 数据 类 型 包括 bool 、binary string、DateTime 、double 、 
GUID 、int32、int64、DictionaryType 以 及 BlobType。DictionaryType 人 多 


许 每 个 行 的 某 一 列 的 值 为 一 系列 <name,type,value> 的 元 组 。BlobType 
被 Blob 表 格 使 用 ， 用 于 表示 图 片 、 图 像 等 Blob 数 据 。 


1. 架 构 


如 图 6-13 所 示 ， 分 区 层 包 含 如 下 四 个 部 分 : 
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图 6-13 Azure 分 区 层 架 构 
e 客 户 端 程序 库 (Client) 


提供 分 区 层 到 WAS 前 端的 接口 ， 前 端 通过 客户 端 以 对 不 同 对 象 表 的 数 
据 单元 进行 增 、 删 、 碍 、 改 等 操作 。 客 户 端 通过 分 区 英 映 表 (Partition 


一 


Map) 获取 分 区 映射 信息 ， 但 所 有 表格 的 数据 内 容 都 在 客户 端 与 分 区 服 
务 郁 之 间 直 接 传 送 ; 


e 分 区 服务 器 〈Partition ServerPS ) 


PS 实现 分 区 的 装载 / 卸 出 、 分 区 内 容 的 读 和 写 ， 分 区 的 合并 和 分 裂 。 一 
般 来 说 ， PS 平均 服务 10 个 分 区 。 

e 分 区 管理 器 (Partition Manager,PM) 

管理 所 有 的 PS， 包 括 分 配 分 区 给 PS， 指 导 PS 实 现 分 区 的 分 裂 及 合并 ， 
监控 PS， 在 PS 之 间 进 行 负载 均衡 并 实现 PS 的 故障 恢复 等 。 每 个 WAS 存 


储 区 有 多 个 PM， 他 们 之 间 通 过 Lock Service 进 行 选 主 ， 持 有 租约 的 PM 
是 主 PM 。 


e 匀 服务 (Lock Service) 


Paxos 锁 服务 用 于 WAS 存 储 区 内 选举 主 PM。 为 外 ， 每 个 PS 与 锁 服 务 之 
间 都 维持 了 租约 。 锁 服务 监控 租约 状态 ，PS 的 租约 快 到 期 时 ， 会 向 锁 
服务 重新 续 约 。 如 果 PS 出 现 故障 ，PM 需 要 首先 等 待 PS 上 的 租约 过 期 才 
可 以 将 它 原来 服务 的 分 区 分 配 出 去 ，PS 租 约 如 果 过 期 也 需要 主动 停止 
读 写 服务 。 否 则 ， 可 能 出 现 多 个 PS 同时 读 写 同一 个 分 区 的 情况 。 


2. 分 区 数据 结构 


WAS 分 区 层 中 的 操作 与 Bigtable 基 本 类 似 。 如 图 6-14， 用 户 写 操作 首先 

追加 到 操作 日 志文 件 流 (Commit Log Stream) ， 接 着 修改 内 存 表 
(Memory Table) ， 等 到 内 存 表 到 达 一 定 大 小 后 ， 需 要 执行 快照 
(Checkpoint， 对 应 Bigtable 中 的 Minor Compaction) 操作 。 分 区 服务 器 
会 定期 将 多 个 小 快照 文件 合并 成 更 大 的 快照 文件 (对 应 Bigtable 中 的 

Merge/Major Compaction) 以 减少 读 操作 需要 访问 的 文件 数 。 分 区 服务 

器 会 对 每 个 快照 文件 维护 热点 行 数据 的 缓存 (Row Page Cache， 对 应 

Bigtable 中 的 Block Cache 和 Key Value Cache) ， 另 外 ， 通 过 布 隆 过 滤器 
过 滤 对 快照 文件 不 存在 行 的 随机 读 请 求 。 
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图 6-14 分 区 数据 结构 


与 Bigtable 的 不 同 点 如 下 : a) WAS 中 每 个 分 区 拥有 一 个 专门 的 操作 日 

志文 件 ， 而 Bigtable 中 同一 个 Tablet Server 的 所 有 子 表 共 享 同一 个 操作 日 
志文 件 ，b) WAS 中 每 个 分 区 维护 各 自 的 元 数据 (例如 分 区 包含 哪 些 快 
照 文件 ， 持 久 化 成 元 数据 文件 流 ) ， 分 区 管理 器 只 管理 每 个 分 区 与 所 
在 的 分 区 服务 器 之 间 的 映射 关系 ， 而 Bigtable 专 门 维护 了 两 级 元 数据 

表 : 元 数据 表 (Meta Table) 及 根 表 (Root Table) ， 每 个 分 区 的 元 数 
据 保存 在 上 一 级 元 数据 表 中 ; c) WAS 专 门 引 入 了 Blob 数 据 文件 流 用 于 
支持 Blob 数 据 类 型 。 


由 于 Blob 数 据 一 般 比 较 大 ， 如 有 果 行 数据 流 中 包含 Blob 数 据 ， 只 记录 每 
个 Blob 数 据 块 在 操作 日 志文 件 流 (Commit Log Stream) 中 的 索引 信 

轧 ， 即 所 在 的 操作 日 志文 件 名 及 文件 内 的 侦 移 。 执 行 快 照 操作 时 ， 需 
要 回收 操作 日 志 。 如 有 果 操 作 日 志 的 某 些 extent 包 含 Blob 数 据 ， 需 要 将 这 
些 extent 和 连接 到 Blob 数 据 流 的 末尾 。 这 个 操作 只 是 简单 地 往 Blob 数 据 流 
文件 追加 extent 指 针 ， 文 件 流 层 对 此 专门 提供 了 快速 操作 接口 。 


3. 负 载 均衡 


PM 记 孙 每 个 PS 及 它 服 务 的 每 个 分 区 的 人 负载。 影响 负载 的 因素 包括 : 
1) 每 秒 事务 数 ，2) 平均 等 待 事务 个 数 ，3) 市 流 率 ;， 4) CPU 使 用 
率 ; 5) 网 络 使 用 率 ; 6) 请 求 延 时 ;7) 每 个 分 区 的 数据 大 小 。PM 与 
PS 之 间 维 持 了 心跳 ，PS 定 期 将 负载 信息 通过 心跳 包 回复 PM。 如 果 PM 
仿 测 到 某 个 分 区 的 负载 过 高 ， 发 送 指令 给 PS 执行 分 裂 操 作 ， 如 果 PS 负 


载 过 高 ， 而 它 服 务 的 分 区 集合 中 没有 过 载 的 分 区 ，PM 从 中 选择 一 个 或 
者 多 个 分 区 迁移 到 其 他 负载 较 轻 的 PS。 


对 某 个 分 区 负载 均衡 两 个 阶段 : 


e 印 载 : PM 首 先 发 送 一 个 外 载 指 令 给 PS,PS 会 执行 一 次 快照 操作 。 一 旦 
完成 后 ，PS 停 止 待 迁移 分 区 的 读 写 服务 并 告知 PM 钾 载 成 功 。 如 果 凶 载 
过 程 中 PS 出 现 异 常 ，PM 需 要 查询 锁 服 务 ， 直 到 PS 的 服务 租约 过 期 才 可 
以 执行 下 一 步 操作 。 


e 加 载 : PM 发 送 加 载 指令 给 新 的 PS 并 且 更 新 PM 维 护 的 分 区 映射 表 结 
构 ， 将 分 区 指 癌 新 的 PS。 新 的 PS 加 载 分 区 并 且 开 始 提供 服务 。 由 于 氏 
载 时 执行 了 一 次 快照 操作 ， 加 载 时 需要 回放 的 操作 日 志 很 少 ， 保 证 了 
加 载 的 快速 。 


有 两 种 可 能 导致 WAS 对 某 个 分 区 执行 分 裂 操 作 ， 一 种 可 能 是 分 区 太 
大 ， 另 外 一 种 可 能 是 分 区 的 负载 过 高 。PM 发 起 分 裂 操作 ， 并 由 PS 确定 
分 裂 点 。 如 果 是 基于 分 区 大 小 的 分 裂 操作 ，PS 维 护 了 每 个 分 区 的 大 小 
以 及 大 致 的 中 间 人 位置， 并 将 这 个 中 间 位 置 作 为 分 裂 点 ;如 果 是 基于 负 
载 的 分 裂 操作 ，PS 目 适应 地 计算 分 区 中 哪个 主键 范围 的 负载 最 高 并 通 
过 它 来 确定 分 裂 点 。 


假设 需要 把 分 区 B 分 裂 为 两 个 新 的 分 区 C 和 D， 操 作 步 又 如 下 : 
1) PM 告知 PS 将 分 区 B 分 裂 为 C 和 D。 


2) PS 对 B 执 行 快照 操作 ， 接 着 停止 分 区 B 的 读 写 服 务 ; 


3) PS 发 起 一 个 “MultiModify”[1] 操 作 将 分 区 B 的 元 数据 ， 操 作 日 志 及 行 
数据 流 复 制 到 C 和 D。 这 一 步 只 需要 拷贝 每 个 文件 的 extent 指 针 列 表 ， 不 
需要 拷贝 extent 的 内 容 。 接 着 PS 分 别 往 C 和 D 的 元 数据 流 写 入 新 的 分 区 


4) PS 开始 对 C 和 D 这 两 个 分 区 提供 读 写 服 务 。 


5) PS 通知 PM 分 裂 成 功 ，PM 相 应 地 更 新 分 区 映射 表 及 元 数据 信息 。 接 
着 PM 会 把 C 或 者 D 中 的 其 中 一 个 分 区 迁移 到 另外 一 个 不 同 的 PS。 


合并 操作 需要 选择 两 个 连续 的 负载 较 低 的 分 区 。 假 设 需要 把 分 区 C 和 D 
合并 成 为 新 的 分 区 E。 操 作 步 又 如 下 : 


1) PM 渤 移 C 或 者 D， 使 得 这 两 个 分 区 被 同一 个 PS 服务 。 接 着 PM 通知 
PS 将 分 区 C 和 DD 合并 成 为 E。 


2) PS 分 别 对 分 区 C 和 DD 执行 快照 操作 ， 接 着 停止 分 区 C 和 D 的 读 写 服 


务 ; 


3) PS 发 起 一 个 “MultiModify” 操 作 合并 分 区 C 和 DD 的 操作 日 志 及 行 数据 
流 ， 生 成 E 的 操作 日 志和 行 数据 流 。 假 设 分 区 C 的 操作 日 志文 件 包含 < 
C1，C2> 两 个 extent， 分 区 D 的 操作 日 志文 件 包 全 <D1，D2，D3> 三 


个 extent， 则 分 区 下 的 操作 日 志文 件 包 含 <C1，C2，D1，D2，D3> 这 
五 个 extent。 行 数据 流 及 Blob 数 据 流 也 是 类 似 的 。 与 分 裂 操 作 类 似 ， 这 
里 只 需要 修改 文件 的 extent 指 针 列 表 ， 不 需要 找 贝 extent 的 实际 内 容 。 


4) PS 对 构造 新 的 元 数据 流 ， 包 含 新 的 操作 日 志文 件 ， 行 数据 文件 ， 
C 和 DD 合并 后 的 新 的 分 区 范围 以 及 操作 日 志 回 放 点 和 行 数据 文件 索引 信 
站 汉 


/JU 


5) PS 加 载 新 分 区 E 并 提供 读 写 服务 。 


6) PS 通知 PM 合并 成 功 ， 接 着 PM 相应 地 更 新 分 区 映射 表 及 元 数据 信 
户 :* 


[1]JMultiModify 指 在 一 次 调用 中 实现 多 步 修 改 操作 。 
6.3.4 讨论 
WAS 整 体 架构 借鉴 GFS+Bigtable 并 有 所 创新 。 主 要 的 不 同 点 包括 : 


1) Chunk 大 小 选择 。GFS 中 每 个 Chunk 大 小 为 64MB， 随 着 服务 器 性 能 
的 提升 ，WAS 每 个 extent 大 小 提高 到 1GB 从 而 减少 元 数据 。 


2) 元 数据 层次 。Bigtable 中 元 数据 包括 根 表 和 元 数据 表 两 级 ， 而 WAS 
中 只 有 一 级 元 数据 ， 实 现 更 加 简便 。 


3) GEFS 的 多 个 Chunk 副 本 之 间 是 弱 一 致 的 ， 不 保证 每 个 Chunk 的 不 同 副 
本 之 则 每 个 字 太 都 完全 相同 ， 而 WAS 能 够 保证 这 一 点 。 


4) Bigtable 每 个 Tablet Server 的 所 有 子 表 共 享 一 个 操作 日 志文 件 从 而 提 
高 写 入 性 能 ， 而 WAS 将 每 个 范围 分 区 的 操作 写 入 到 不 同 的 操作 日 志文 
(全 
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天 系数 据 库 理 论 汇集 了 计算 机 科学 家 几 十 年 的 吞 茵 ，Oracle、Microsoft 
SQL Server、MySQL 等 关系 数据 库 系 统 广泛 应 用 在 各 行 各 业 中 。 可 以 
说 ， 没 有 关系 数据 库 ， 就 没有 今天 的 IT 或 者 互联 网 行业 。 然 而 ， 关 系 
数据 库 设计 之 初 并 没有 预见 到 IT 行 业 发 展 如 此 之 快 ， 总 是 假设 系统 运 
行 在 单机 这 一 封闭 系统 


有 很 多 思路 可 以 实现 关系 数据 库 的 可 扩展 性 。 例 如 ， 在 应 用 层 划分 数 
据 ， 将 不 同 的 数据 分 片 划 分 到 不 同 的 关系 数据 库 上 ， 如 MySQL 
Sharding; 或 者 在 关系 数据 库 内 部 文 持 数据 目 动 分 睫 ， 如 Microsoft SQL 
Azure; 或 者 干脆 从 存储 引擎 开始 重 写 一 个 全 新 的 分 布 式 数据 库 ， 如 
Google Spanner 以 及 Alibaba OceanBase。 


本 章 首 允 介 绍 数据 库 中 间 层 架构 ， 接 着 介绍 Microsoft SQL Azure， 最 后 


介绍 Google Spanner 。 


7.1 数据 库 中 间 层 


为 了 扩展 天 系数 据 库 ， 最 简单 也 是 最 为 第 见 的 做 法 就 是 应 用 层 按 照 规 
则 将 数据 拆 分 为 多 个 分 斤 ， 分 布 到 多 个 数据 库 丰 点 ， 并 引入 一 个 中 间 
层 来 对 应 用 屏 菩 后 端的 数据 库 拆 分 细 -。 


7.1.1 架构 


以 MySQL Sharding 架 构 为 例 ， 分 为 儿 个 部 分 : 中 间 层 dbproxy 集 群 、 数 
据 库 组 、 元 数据 服务 器 、 常 驻 进程 ， 如 图 7-1 所 示 。 


MySQL 客户 端 库 MySQL 客户 端 库 MySQL 客户 端 库 
写 人 | 读 取 写 入 | 读 取 写 大 读 取 


再 各 让 和 
db 拆 分 规则 


监控 、 自 动 升 级 等 


图 7-1 数据 库 中 间 层 架构 
(1) MySQL 客户 端 库 


应 用 程序 通过 MySQL 原 生 的 客户 端 与 系统 交互 ， 文 持 JDBC， 原 有 的 单 
机 访问 数据 库 程序 可 以 无 颖 迁移 。 


(2) 中 间 层 dbproxy 


中 间 层 解析 客户 端 SQL 请 求 并 转发 到 后 端的 数据 库 。 有 具体 来 讲 ， 它 解 
析 MySQL 协 议 ， 执 行 SQL 路 由 ，SQL 过 滤 ， 读 写 分 离 ， 结 果 归 并 ， 排 
序 以 及 分 组 ， 等 等 。 中 间 层 由 多 个 无 状态 的 dbproxy 进 程 组 成 ， 不 存在 


单 点 的 情况 。 男 外 ， 可 以 在 客户 端 与 中 间 层 之 间 引 入 LVS (Linux 
Virtual Server) 对 客户 端 请 求 进行 负载 均衡 。 需 要 注意 的 是 ，3 引 入 LVS 
后 ， 客 户 端 请 求 需要 额外 增加 一 层 通信 开销 ， 因 此 ， 常 见 的 做 法 是 直 
接 在 客户 端 配置 中 间 层 服务 器 列表 ， 由 客户 端 处 理 请 求 负载 均衡 以 及 
中 间 层 服务 器 故障 等 情况 。 


(3) 数据 库 组 dbgroup 


每 个 dbgroup 由 N 台 数据 库 机 器 组 成 ， 其 中 一 台 为 主机 (Master) ， 另 外 
N-1 台 为 备 机 (Slave) 。 主 机 负责 所 有 的 写 事务 及 强 一 致 读 事 务 ， 并 将 
操作 以 binlog 的 形式 复制 到 备 机 ， 备 机 可 以 支持 有 一 定 延迟 的 读 事务 。 


(4) 元 数据 服务 器 


元 数据 服务 器 主要 负责 维护 dbgroup 拆 分 规则 并 用 于 dbgroup 选 主 。 
dbproxy 通 过 元 数据 服务 器 获取 拆 分 规则 从 而 确定 SQL 语句 的 执行 计 

划 。 另 外 ， 如 果 dbgroup 的 主机 出 现 故障 ， 需 要 通过 元 数据 服务 器 选 
主 。 元 数据 服务 器 本 身 也 需要 多 个 副本 实现 HA， 一 种 常见 的 方式 是 采 
用 Zookeeper 实 现 。 


(5) 常 驻 进程 agents 


部 署 在 每 侣 数据库 服务 器 上 的 常 驻 进程 ， 用 于 实现 监控 ， 单 点 切换 ， 
安 疾 ， 凶 载 程序 等 。dbgroup 中 的 数据 库 需 要 进行 主 备 切 换 ， 软 件 升 级 


等 ， 这 些 控制 逻辑 需要 与 数据 库 读 写 事务 处 理 逻 辑 隔 离开 来 。 


假设 数据 库 按照 用 户 哈 希 分 区 ， 同 一 个 用 户 的 数据 分 布 在 一 个 数据 库 
组 上 。 如 有 果 SQL 请 求 只 涉及 同一 个 用 户 〈 这 对 于 大 多 数 应 用 都 是 成 立 
的 ) ， 那 么 ， 中 间 层 将 请 求 转发 给 相应 的 数据 库 组 ， 等 待 返回 结果 并 
将 结果 返回 给 客户 端 ， 如 果 SQL 请 求 涉及 多 个 用 户 ， 那 么 中 间 层 需要 
转发 给 多 个 数据 库 组 ， 等 待 返回 结果 并 将 结果 执行 合并 、 分 组 、 排 序 
等 操作 后 返回 客户 端 。 由 于 中 间 层 的 协议 与 MySQL 兼 容 ， 客 户 端 完全 
感受 不 到 与 访问 单 台 MySQL 机 器 之 间 的 差别 。 


EA A 


MySQL Sharding 和 集群 一 般 按照 用 户 id 进 行 哈 希 分 区 ， 这 里 面 存在 两 个 


问题 : 
1) 集群 的 容量 不 够 怎么 办 ? 
2) 单个 用 户 的 数据 量 太 大 怎么 办 ? 


对 于 第 1 个 问题 ，MySQL Sharding 集 群 往往 会 采用 双 倍 扩容 的 方案 ， 即 
从 2 人 台 服 务 器 扩 到 4 台 ， 接 着 再 扩 到 8 人 台 ..…….， 依次 类 推 。 


假设 原来 有 2 个 dbgroup， 第 一 个 dbgroup 的 主机 为 A0， 备 机 为 A1， 第 二 
个 dbgroup 的 主机 为 BO， 备 机 为 B1。 按照 用 户 id 哈 布 取 柑 ， 结 来 为 奇数 


的 用 户 分 布 在 第 一 个 dbgroup， 结 打 为 偶数 的 用 户 分 布 在 第 二 个 
dbgroup。 第 见 的 一 种 扩容 方式 如 下 : 


1) 等 待 A0 和 B0 的 数据 同步 到 其 备 服务 器 ， 即 A1 和 B1。 


2) 停止 写 服务 ， 等 待 主 备 完全 同步 后 解除 A0 与 A1、B0 与 B1 之 间 的 主 
备 关 系 。 


3) 修改 中 间 层 的 映射 规则 ， 将 哈 希 值 模 4 等 于 1 的 用 户 数据 映射 到 A1， 
哈 希 值 模 4 等 于 3 的 用 户 数 据 映射 到 B1 。 


4) 开启 写 服务 ， 用 户 id 哈 希 值 模 4 等 于 0、1、2、3 的 数据 将 分 别 写 入 到 
A0、A1、B0、B1。 这 就 相当 于 有 一 半 的 数据 分 别 从 A0、B0 迁 移 到 
A1、B1。 


5) 分 别 给 A0、A1、B0、B1 增 加 一 台 备 机 。 


最 终 ， 集 群 由 2 个 dbgroup 变 为 4 个 dbgroup。 可 以 看 到 ， 扩 容 过 程 需要 停 
一 小 会 儿 服 务 ， 男 外 ， 扩 容 进 行 过 程 中 如 果 再 次 发 生 服 务 絮 故障 ， 将 
使 扩容 变 得 非常 复杂 ， 很 难 做 到 完全 目 动 化 。 


对 于 第 2 个 问题 ， 可 以 在 应 用 层 定 期 统计 大 用 户 ， 并 且 将 这 些 用 户 的 数 
据 按照 数据 量 拆 分 到 多 个 dbgroup。 当 然 ， 定 期 维护 这 些 信 息 对 应 用 层 
征 一 个 很 大 的 代价 。 


7.2 Microsoft SQL Azure 


Microsoft SQL Azure 是 微软 的 云天 系 型 数据 库 ， 后 端 存 储 又 称 为 云 SQL 
Server (Cloud SQL Server) 。 它 构建 在 SQL Server 之 上 ， 通 过 分 布 式 技 
术 提 升 传统 关系 型 数据 库 的 可 扩展 性 和 容错 能 


7.2.1 数据 模型 


1. 逻 辑 模 型 


云 SQL Server 将 数据 划分 为 多 个 分 区 ， 通 过 限制 事务 只 能 在 一 个 分 区 执 
行 来 规避 分 布 式 事务 。 另 外 ， 它 通过 主 备 复制 (Primary-Copy) 协议 将 
数据 复制 到 多 个 副本 ， 保 证 高 可 用 性 。 


云 SQL Server 中 一 个 逻辑 数据 库 称 为 一 个 表格 组 (table group) ， 它 既 

可 以 是 有 主键 的 ， 也 可 以 是 无 主键 的 ， 本 节 只 讨论 有 主键 的 表格 组 。 

如 果 一 个 表格 组 是 有 主键 的 ， 要 求 表格 组 中 所 有 的 表格 都 有 一 个 相同 

的 列 ， 称 为 划分 主键 (partitioning key) 。 图 中 的 表格 组 包含 两 个 表 

格 ， 顾客 表 (Customers) 和 订单 表 (Orders) ， 划 分 主键 为 顾客 ID 
(Customers 表 中 的 Id 列 ) 。 如 图 7-2 所 示 。 


划分 主键 不 需要 是 表格 组 中 每 个 表格 的 唯一 主键 。 图 7-2 中 ， 顾 客 ID 是 
顾客 表 的 唯一 主键 ， 但 不 是 订单 表 的 唯一 主键 。 同 样 ， 划 分 主键 也 不 


需要 是 每 个 表格 的 聚集 索引 ， 订 单 表 的 聚集 索引 为 组 合 主键 < 顾客 


ID， 订 单 ID> (<Id,0id>) 


区 | [| i 
| | 
EN EE PE 
|- | | 
TF | 
I Ti | 
| 本 | 上 
一 [一 | | 

一 一 一 一 | 

可 


划分 主键 列 


( Customerld ) 


图 7-2 云 SQL Server 数 据 模型 


表格 组 中 所 有 划分 主键 相同 的 行 集合 称 为 行 组 (row group) 。 顾 客 表 
的 第 一 行 以 及 订单 表 的 前 两 行 的 划分 主键 均 为 244， 构成 一 个 行 组 。 云 
SQL Server 只 文 持 同一 个 行 组 内 的 事务 ， 这 就 意味 着 ， 同 一 个 行 组 的 数 


据 逻 辑 上 会 分 布 到 一 台 服 务 右 。 


如 果 表 格 组 是 有 主键 的 ， 云 SQL Server 文 持 自 动 地 水 平 拆 分 表格 组 并 分 
散 到 整个 集群 。 同 一 个 行 组 总 是 被 一 台 物 理 的 SQL Server 服 务 ， 从 而 避 
免 了 分 布 式 事务 。 这 样 的 好 处 是 避免 了 分 布 式 事务 的 两 个 问题 : 阻塞 
及 性 能 ， 当 然 ， 也 限制 了 用 户 的 使 用 模式 。 


只 读 事 务 可 以 跨 多 个 行 组 ， 但 事务 隔离 级 别 最 多 文 持 读 取 已 提交 


和 
(read-committed) 。 


2. 物 理 模 型 


在 物理 层面 ， 每 个 有 主键 的 表格 组 根据 划分 主键 列 有 序 地 分 成 多 个 数 
据 分 区 (partition) 。 这 些 分 区 之 间 互 相 不 重 谷 ， 并 且 和 覆盖 了 所 有 的 划 
分 主 健 值 。 这 就 确保 了 每 个 行 组 属于 一 个 唯一 的 分 区 。 


分 区 是 云 SQL Server 复 制 、 和 了 迁移、 负载 均衡 的 基本 单位 。 每 个 分 区 包含 
多 个 副本 (默认 为 3 ， 每 个 副本 存储 在 一 台 物 理 的 SQL Server 上 。 由 
于 每 个 行 组 属于 一 个 分 区 ， 这 也 就 意味 着 每 个 行 组 的 数据 量 不 能 超过 
分 区 允许 的 最 大 值 ， 也 就 是 单 台 SQL Server 的 容量 上 限 。 


一 般 来 说 ， 同 一 个 交换 机 或 者 同一 个 机 架 的 机 器 同时 出 现 故障 的 概率 
较 大 ， 因 而 它们 属于 同一 个 故障 域 (failure domain) 。 云 SQL Server 保 
证 每 个 分 区 的 多 个 副本 分 布 到 不 同 的 故障 域 。 每 个 分 区 有 一 个 副本 为 
副本 (Primary) ， 其 他 副本 为 备 副本 (Secondary) 。 主 副本 处 理 所 
有 的 查询 ， 更 新 事务 并 以 操作 日 志 的 形式 将 事务 同步 到 备 副 本 ， 备 副 


本 接收 主 副本 发 送 的 事务 日 志 并 应 用 到 本 地 数据 库 。 目 前 ， 备 副本 不 
支持 读 操作 ， 当 然 ， 这 是 很 容易 实现 的 ， 只 是 可 能 读 取 到 过 期 的 数 
据 。 


如 图 7-3 所 示 ， 有 四 个 逻辑 分 区 PA、PB、PC、PD， 每 个 分 区 有 一 个 主 
副本 和 两 个 备 副 本 。 例 如 ，PA 有 一 个 主 副 本 PAP 以 及 两 个 备 副 本 PAS1 
和 PAS2。 每 台 物 理 SQL Server 数 据 库 混 合 存放 了 主 副 本 和 备 副 本 。 如 
果菜 台 机 器 发 生 故 障 ， 它 上 面 的 分 区 能 够 很 快 分 散 到 其 他 活着 的 机 器 


图 7-3 云 SQL Server 物 理 模 型 


分 区 划分 古 动 态 的 ， 如 琳 某 个 分 区 超过 了 人 允许 的 最 大 分 区 大 小 或 者 负 
载 太 高 ， 这 个 分 区 将 分 裂 为 两 个 分 区 。 假 设 分 区 A 的 主 副本 在 机 器 又， 
它 的 备 副 本 在 机 器 Y 和 Z。 如 果 分 区 A 分 裂 为 A1 和 A2， 每 个 副本 都 需要 
相应 地 分 裂 为 两 段 。 为 了 更 好 地 进行 负载 均衡 ， 每 个 副本 分 裂 前 后 的 
角色 可 能 不 尽 相 同 。 例 如 ，A1 的 主 副本 仍然 在 机 絮 X， 备 副本 在 机 器 Y 
和 机 絮 Z; 而 A2 的 主 副 本 可 能 在 机 器 Y， 备 副本 在 机 絮 X 和 机 侨 Z。 


7.2.2 架构 


云 SQL Server 分 为 四 个 主要 部 分 : SQL Server 实 例 、 全 局 分 区 管理 、 协 
议 网 天 、 分 布 式 基础 部 件 ， 如 图 7-4 所 示 。 


应 用 客户 请 


x SQL Server 


协议 网 关 


SQL Server 实例 


基础 设施 与 部 嗜 服务 


图 7-4 云 SQL Server 的 分 层 染 构 


e 每 个 SQL Server 实 例 是 一 个 运行 着 SQL Server 的 物理 进程 。 每 个 物理 
数据 库 包 含 多 个 子 数据 库 ， 它 们 之 间 互 相隔 离 。 子 数据 库 是 一 个 分 
区 ， 包 含 用 户 的 数据 以 及 schema 信 息 。 


e 全 局 分 区 管理 器 (Global Partition Mana- ger) 维护 分 区 映射 表 信 息 ， 
包括 每 个 分 区 的 主键 范围 ， 每 个 副本 所 在 的 服务 器 ， 以 及 每 个 副本 的 
状态 ， 包 括 副本 当前 是 主 还 是 备 ， 前 一 次 是 主 还 是 备 ， 正 在 变 成 主 ， 
正在 被 拷贝 或 者 正在 被 追赶 。 当 服务 器 发 生 故 障 时 ， 分 布 式 基础 部 件 
仿 测 并 确保 服务 器 故障 后 通知 全 局 分 区 管理 器 。 全 局 分 区 管理 器 接着 
执行 重新 配置 操作 。 男 外 ， 全 局 分 区 管理 器 监控 集群 中 的 SQL Server 工 
作 机 ， 执 行 负 载 均衡 ， 副 本 拷贝 等 管理 操作 。 


e 协 议 网 关 (Protocol Gateway) 负责 将 用 户 的 数据 库 连 接 请 求 转发 到 相 
应 的 主 分 区 上 。 协 议 网 关 通 过 全 局 分 区 管理 需 获 取 分 区 所 在 的 SQL 
Server 实 例 ， 后 续 的 读 写 事务 操作 都 在 网 天 与 SQL Server 实 例 之 间 进 


一 


休 。 
e 分 布 式 基 础 部 件 (Distributed Fabric) 用 于 维护 机 器 上 下 线 状态 ， 检 


测 服务 器 故障 并 为 集群 中 的 各 种 角色 执行 选举 主 世 点 操作 。 它 在 每 台 
服务 占 上 都 运行 了 一 个 守护 进程 。 


7.2.3 复制 与 一 致 性 


云 SQL Server 采 用 “Quorum Commit” 的 复制 协议 ， 用 户 数据 存储 三 个 副 
本 ， 至 少 写 成 功 两 个 副本 才 可 以 返回 客户 端 成 功 。 如 图 7-5 所 示 ， 事 务 
T 的 主 副本 分 区 生成 操作 日 志 并 发 送 到 备 副本 。 如 果 事 务 T 回 深 ， 主 加 
本 会 发 送 一 个 ABORT 消 息 给 备 副 本 ， 备 副本 将 删除 接收 到 的 Tf 事务 包 


含 的 修改 操作 。 如 果 事 务 T 提 交 ， 主 副本 会 发 送 COMMIT 消 息 给 备 副 
本 ， 并 带 上 事务 提交 顺序 号 (Commit Sequence Number,CSN) ， 每 个 
和 甸 副 本 会 把 事务 T 的 修改 操作 应 用 到 本 地 数据 库 并 发 送 ACK 消 恩 回 复 主 
副本 。 如 果 主 副本 接收 到 一 半 以 上 的 成 功 ACK (包含 主 副本 自身 ) ， 
它 将 在 本 地 提交 事务 并 成 功 返 回 客 户 端 。 


Primary Secondary 


:update (w) 
: update (x) 
; update (y) 
:Update (z) 


: commit (CSN=1) 


Tl1: start transaction; 
Update (x); 
Update (z); 


TO: commit (CSN=2) 


TO: start transaction; 


TO: acM-commit 


图 7-5 云 SQL Server 主 备 同步 


某 些 备 副本 可 能 出 现 故 障 ， 恢 复 后 将 往 主 副本 发 送 本 地 已 经 提交 的 最 
后 一 个 事务 的 提交 顺序 号 。 如 果 两 者 相差 不 多 ， 主 副本 将 直接 发 送 操 
作 日 志 给 备 副 本 ; 如 采 两 者 相差 太 多 ， 主 副本 将 首先 把 数据 库 快照 传 
给 备 副 本 ， 再 把 快照 点 之 后 的 操作 日 志 传 给 备 副 本 。 


副本 与 备 副 本 之 间 传 送 逻 辑 操 作 日 志 ， 而 不 是 对 磁盘 物理 页 的 redo 久 
undo 日 志 。 数 据 库 索引 及 schema 相 关 操 作 (如 创建 ， 删 除 表格 ， 也 通 
过 操作 日 志 发 送 。 实 践 过 程 中 发 现 了 一 些 人 硬件 问题 ， 比 如 某 些 网 卡 会 
表现 出 错误 的 行为 ， 因 此 对 主 备 之 间 的 所 有 消息 都 会 做 校准 
(checksum) 。 同 样 ， 某 些 磁 如 会 出 现 “ 位 翻转 ”错误 ， 因 此 ， 对 写 入 
到 磁 副 的 数据 也 做 校 验 。 


7.2.4 容错 


如 果 数 据 方 点 发 生 了 故障 ， 需 要 启动 宕 机 恢复 过 程 。 每 个 SQL Server 实 
例 最 多 服务 650 个 多 辑 分 区 ， 这 些 分 区 可 能 是 主 副本 ， 也 可 能 是 备 辑 
本 。 全 局 分 区 管理 器 统一 调度 ， 每 次 选择 一 个 分 区 执行 重新 配置 
(Reconfiguration) 。 如 果 出 现 故 障 的 分 区 是 备 副 本 ， 全 局 分 区 管理 器 
首先 选择 一 台 人 负载 较 轻 的 服务 器 ， 接 着 从 相应 的 主 副本 分 区 拷贝 数据 
来 增加 副本 ; 如 果 出 现 故 障 的 分 区 是 主 副本 ， 首 先 需 要 从 其 他 副本 中 
选择 一 个 最 新 的 备 副 本 作为 新 的 主 副本 ， 接 着 选择 一 台 人 负载 较 轻 的 机 
妖 增 加 备 副本 。 由 于 云 SQL Server 采 用 “Quorum Commit* 复 制 协 议 ， 如 


酒 


分 区 有 三 个 副本 ,至少 傈 证 两 个 副本 写 入 成 功 ， 主 副本 出 现 故 
选择 最 狐 的 备 副 本 可 以 保证 不 丢 数 据 。 


每 
障 后 
全 局 分 区 管理 器 控制 重新 配置 任务 的 优先 级 ， 否 则 ， 用 户 的 服务 会 受 
到 影响 。 比 如 某 个 数据 分 片 的 主 副本 出 现 故 障 ， 需 要 尽快 从 其 他 副本 
中 选择 备 副本 切换 为 主 副本 ; 某 个 数据 分 片 只 有 一 个 副本 ， 需 要 优先 
复制 。 男 外 ， 某 些 服务 器 可 能 下 线 很 短 一 段 时 间 后 重新 上 线 ， 为 了 避 
免 过 多 无 用 的 数据 拷贝 ， 这 里 还 需要 配置 一 些 策略 : 比如 只 有 两 个 加 
本 的 状态 持续 较 长 一 段 时 间 (SQL Azure 默 认 配 置 为 两 小 时 ) 才 开 始 复 
制 第 三 个 副本 。 


全 局 分 区 管理 器 也 采用 “Quorum Commit” 实 现 高 可 用 性 。 它 包含 七 个 副 
本 ， 同 一 时 刻 只 有 一 个 副本 为 主 ， 分 区 相关 的 元 数据 操作 至 少 需要 在 
四 个 副本 上 成 功 。 如 果 全 局 分 区 管理 器 主 副本 出 现 故障 ， 分 布 式 基础 
部 件 将 负责 从 其 他 副本 中 选择 一 个 最 新 的 副本 作为 新 的 主 副本 。 


7.2.5 负载 均衡 


负载 均衡 相关 的 操作 包含 三 种 : 副本 迁移 以 及 主 备 副 本 切换 。 新 的 服 
务 器 世 点 加 入 时 ， 系 统 内 的 分 区 会 逐步 地 迁移 到 新 节点 ， 这 里 需要 注 
意 的 是 ， 为 了 避免 过 多 的 分 区 同时 迁 入 者 节点 ， 全 局 分 区 管理 器 需要 
控制 迁移 的 频率 ， 否 则 系统 整体 性 能 可 能 会 下 降 。 帮 外， 如 有 果 主 副本 


名 


所 在 服务 器 负载 过 高 ， 可 以 选择 负载 较 低 的 备 副 本 替换 为 主 副 本 提供 
读 写 服务 。 这 个 过 程 称 为 主 备 副 本 切换 ， 不 涉及 数据 拷贝 。 


影响 服务 右 广 点 人 负载 的 因素 包括 : 读 写 次 数 ， 磁 盘 / 内 存 /CPU/IO 使 用 量 
等 。 全 局 分 区 管理 融会 根据 这 些 因 系 计 算 每 个 分 区 及 每 个 SQL Server 实 
例 的 负载 。 


7.2.6 多 租户 


云 存储 系统 中 多 个 用 户 的 操作 相互 干扰 ， 因 此 需要 限制 每 个 SQL Azure 
逻辑 实例 使 用 的 系统 资源 : 


1) 操作 系统 资源 限制 ， 比 如 CPU、 内 存 、 写 入 速度 ， 等 等 。 如 果 超 过 
限制 ， 将 在 10 秒 内 拒绝 相应 的 用 户 请 求 ; 


2) SQL Azure 逻 辑 数 据 库容 量 限制 。 每 个 逻辑 数据 库 都 预先 设置 了 最 
大 的 容量 ， 超 过 限制 时 拒绝 更 新 请 求 ， 但 允许 删除 操作 :; 


3) SQL Server 物 理 数据 库 数 据 大 小 限制 。 超 过 该 限制 时 返回 客户 端 系 
统 错误 ， 此 时 需要 人 工 介入 。 


7.2.7 讨论 


Microsoft SQL Azure 将 传统 的 关系 型 数据 库 SQL Server 搬 到 云 环境 中 ， 
比较 符合 用 户 过 去 的 使 用 习惯 。 当 然 ， 云 SQL Server 与 单机 SQL Server 


e 不 文 持 的 操作 : Microsoft Azure 作 为 一 个 针对 企业 级 应 用 的 平台 ， 尽 
管 尝试 文 持 尽量 多 的 SQL 特 性 ， 仍 然 有 一 些 特性 无 法 文 持 。 比 如 USE 操 
作 : SQL Server 可 以 通过 USE 切 换 数据 库 ， 不 过 在 SQL Azure 不 文 持 ， 
这 是 因为 不 同 的 逻辑 数据 库 可 能 位 于 不 同 的 物理 机 器 。 


e 观 念 转变 : 对 于 开发 人 员 ， 需 要 用 分 布 式 系统 的 思维 开发 程序 ， 比 如 
一 个 连接 除了 成 功 、 失 败 还 有 第 三 种 不 确定 状态 : 云端 没有 返回 操作 
结果 ， 操 作 是 否 成 功 我 们 无 从 得 知 ;， 对 于 DBA， 数 据 库 的 日 常 维护 ， 
比如 升级 、 数 据 备份 等 工作 都 移交 给 了 微软 ， 可 能 会 有 更 多 的 精力 关 
注 业 务 系统 以 构 。 


相 比 Azure Table Storage,SQL Azure 在 扩展 性 上 有 一 些 劣 势 ， 例 如 ， 单 
个 SQL Azure 实 例 大 小 限制 。Azure Table Storage 单 个 用 户 表 格 的 数据 可 
以 分 布 到 多 个 存储 节点 ， 数 据 总 量 几乎 没有 限制 ， 而 单个 SQL Azure 实 
例 最 大 限制 为 50GB， 如 果 用 户 的 数据 量 大 于 最 大 值 ， 需 要 用 户 在 应 用 
层 对 数据 库 进行 水 平 或 者 王 直 拆 分 ， 使 用 起 来 比较 麻烦 。 


7.3 Google Spanner 


Google Spanner 是 Google 的 全 球 级 分 布 式 数 据 库 (Globally-Distributed 
Database) 。Spanner 的 扩展 性 达到 了 全 球 级 ， 可 以 扩展 到 数 百 个 数据 
中 心 ， 数 百 万 台 机 器 ， 上 万 亿 行 记录 。 更 为 重要 的 是 ， 除 了 雁 张 的 可 


扩展 性 之 外 ， 它 还 能 通过 同步 复制 和 多 版 本 控制 来 满足 外 部 一 致 性 ， 
文 持 跨 数 据 中 心事 务 。 


无 论 从 学 术 研 究 还 是 工程 实践 的 角度 看 ，Spanner 都 是 一 个 划时代 的 分 
布 式 存储 系统 。Spanner 的 成 功 说 明了 一 点 ， 分 布 式 技术 能 够 和 数据库 
技术 有 机 地 结合 起 来 ， 通 过 分 布 式 技术 实现 高 可 扩展 性 ， 并 呈现 给 使 
用 者 类 似 关 系数 据 库 的 数据 模型 。 


7.3.1 数据 模型 


Spanner 的 数据 模型 与 6.2 市 中 介绍 的 Megastore 系 统 比 较 类 似 。 


如 图 7-6 所 示 ， 对 于 一 个 典型 的 相册 应 用 ， 需 要 存储 其 用 户 和 相册 ， 可 
以 用 上 面 的 两 个 SQL 语句 来 创建 表 。Spanner 的 表 是 层次 化 的 ， 最 底层 
的 表 是 目录 表 (Directorytable) ， 其 他 表 创 建 时 ， 可 以 用 INTERLEAVE 
IN PARENT 来 表示 层次 关系 。Spanner 中 的 目录 相当 于 Megastore 中 的 实 
体 组 ， 一 个 用 户 的 信息 (user_id,email) 以 及 这 个 用 户 下 的 所 有 相片 信 
息 构 成 一 个 目录 。 实 际 存储 时 ，Spanner 会 将 同一 个 目录 的 数据 存放 到 
一 起 ， 只 要 目录 不 太 大 ， 同 一 个 目录 的 每 个 副本 都 会 分 配 到 同一 台 机 
器 。 因 此 ， 针 对 同一 个 目录 的 读 写 事务 大 部 分 情况 下 都 不 会 涉及 跨 机 
操作 。 


CREATE TABLE Users { 


user id int64 not null, Users(1) 到 
FF Directory 
email string Albums(1,1) 3665 
nnRY RV fy ee » | NTRFONTARY 。 00- 
} PRIMARY KEPY{UsSez id),DIRECTORY; Albumst1.2) 


CREATE TABLE Albums 1 
a De FF Users(2) 
user id irntoed4, 
album id int32, Albums(2,1) Directory 
name String Albums(2.2) 453 

} PRIMARY KEY{uUser id, album id), A a 
INTERLEAVE IN PARENT Users; Re 


图 7-6 Spanner 数 据 模型 
7.3.2 架构 


Spanner 构 建 在 Google 下 一 代 分 布 式 文件 系统 Colossus 之 上 。Colossus 是 
GFS 的 延续 ， 相 比 GFS,Colossus 的 主要 改进 点 在 于 实时 性 ， 并 且 文 持 海 
量 小 文件 。 


由 于 Spanner 是 全 球 性 的 ， 因 此 它 有 两 个 其 他 分 布 式 存 储 系统 没有 的 概 
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eUniverse。 一 个 Spanner 部 署 实例 称 为 一 个 Universe。 目 前 全 世界 有 3 
个 ， 一 个 开发 、 一 个 测试 、 一 个 线 上 。Universe 文 持 多 数据 中 心 部 署 ， 


且 多 个 业务 可 以 共享 同一 个 Universe 。 


eZones。 每 个 Zone 属于 一 个 数据 中 心 ， 而 一 个 数据 中 心 可 能 有 多 个 
Zone。 一 般 来 说 ，Zone 内 部 的 网 络 通信 代价 较 低 ， 而 Zone 与 Zone 之 间 
通信 代价 很 高 。 


如 图 7-7 所 示 ，Spanner 系 统 包含 如 下 组 件 : 


Universe Master Plcement Driver 


Zonel Zone2 ZoneN 


zonemaster zonemaster zonemaster 


n location ' location vv | location 
proxy 


proxy proxy 


Bb 


Spanserver | Spanserver | Spanserver 


图 7-7 Spanner 整 体 架 构 


eUniverse Master: 监控 这 个 Universe 里 Zone 级 别 的 状态 信息 。 


[© 


ePlacement Driver 提供 跨 Zone 数 据 迁 移 功能 


eLocation Proxy: 提供 获取 数据 的 位 置信 息 服 务 。 客 户 端 需 要 通过 它 才 
能 够 知道 数据 由 哪 台 Spanserver 服 务 。 


eSpanserver: 提供 存储 服务 ， 功 能 上 相当 于 Bigtable 系 统 中 的 Tablet 


9erver。 


每 个 Spanserver 会 服务 多 个 子 表 ， 而 每 个 子 表 又 包含 多 个 目 示 。 窜 户 端 
往 Spanner 发 送 读 写 请 求 时 ， 首 先 查 找 目 录 所 在 的 Spanserver， 接 着 从 
Spanserver 读 写 数据 。 


这 里 面 有 一 个 问题 ， 如 何 存 储 目 邓 与 Spanserver 之 间 的 映射 关系? 假设 
每 个 用 户 对 应 一 个 目 隶 ， 全 球 忌 共有 50 亿 用 户 ， 那 么 ， 映 喘 天 系 的 数 
据 规 模 为 几 十 亿 到 几 百 亿 ， 单 台 服 务 器 无 法 存放 。Spanner 论 文中 没有 
明确 说 明 ， 笔 者 猜测 这 里 的 做 法 和 Bigtable 类 似 ， 即 将 映射 关系 这 样 的 
元 数据 信息 当成 元 数据 表格 ， 和 普通 用 户 表 格 采 取 相 同 的 存储 方式 。 


7.3.3 复制 与 一 致 性 


如 图 7-8 所 示 ， 每 个 数据 中 心 运行 着 一 套 Colossus， 每 个 机 器 有 100 一 
1000 个 子 表 ， 每 个 子 表 会 在 多 个 数据 中 心 部 署 多 个 副本 。 为 了 同步 系 
统 中 的 操作 日 志 ， 每 个 子 表 上 会 运行 一 个 Paxos 状 态 机 。Paxos 协 议会 选 
出 一 个 副本 作为 主 副本 ， 这 个 主 副 本 的 硅 命 默认 是 10 秒 。 正 党 情况 

下 ， 这 个 主 副 本 会 在 快要 到 期 的 时 候 将 目 己 再 次 选 为 主 副 本 ;如 采 出 
现 异常 ， 例 如 主 副本 所 在 的 spanserver 宕 机 ， 其 他 副本 会 在 10 秒 后 通过 
Paxos 协 议 选 举 为 新 的 主 副本 。 


其 他 Paxos 组 的 


一 
参与 者 


其 他 Paxos 组 的 
参与 者 


PE 
和 
下 


和 和 . 
1 1 n 1 
Paxos 一 Paxos KK- Paxos 
' 1 a 1 
重 和 nm 


子 表 子 表 了 表 
Colossus | | Colossus ! | Colossus 
和 ! hn 
数据 中 心 X 数据 中 心 Y 数据 中 心 Z 


图 7-8 Spanner 多 集群 复制 


通过 Paxos 协 议 ， 实 现 了 跨 数 据 中 心 的 多 个 副本 之 间 的 一 任性 。 男 外 ， 
每 个 主 副本 所 在 的 Spanserver 还 会 实现 一 个 锁 表 用 于 并 发 控制 ， 读 写 事 
务 操作 某 个 子 表 上 的 目录 时 需要 通过 锁 表 避免 多 个 事务 之 间 互 相干 
从 


除了 锁 表 ， 每 个 主 副本 上 还 有 一 个 事务 管理 器 。 如 条 事务 在 一 个 Paxos 
组 里 面 ， 可 以 绕 过 事务 管理 侨 。 但 是 一 旦 事务 跨 多 个 Paxos 组 ， 束 需要 
事务 管理 器 来 协调 。 


锯 表 实现 单个 Paxos 组 内 的 单机 事务 ， 事 务 绾 理 絮 实现 跨 多 个 Paxos 组 的 
分 布 式 事务 。 为 了 实现 分 布 式 事务 ， 需 要 实现 3.7.1 节 中 提 到 的 两 阶段 


提交 协议 。 有 一 个 Paxos 组 的 主 副本 会 成 为 两 阶段 提交 协议 中 的 协调 
者 ， 其 他 Paxos 组 的 主 副本 为 参与 者 。 


7.3.4 TrueTime 


为 了 实现 并 发 控制 ， 数 据 库 需 要 给 每 个 事务 分 配 全 局 唯一 的 事务 id。 然 
而 ， 在 分 布 式 系统 中 ， 很 难 生成 全 局 唯一 id。 一 种 方式 是 采用 Google 
Percolator (Google Caffeine 的 底层 存储 系统 ) 中 的 做 法 ， 即 专门 部 署 一 
套 Oracle 数 据 库 用 于 生成 全 局 唯一 id。 虽 然 Oracle 逻 辑 上 是 一 个 单 点 ， 

但 是 实现 的 功能 单一 ， 因 而 能 够 做 得 很 高 效 。Spanner 选 择 了 另外 一 种 
做 法 ， 即 全 球 时 钟 同 步 机 制 TrueTime。 


TrueTime 是 一 个 提供 本 地 时 间 的 接口 ， 但 与 Linux 上 的 gettimeofday 接 口 
不 一 样 的 是 ， 它 除了 可 以 返回 一 个 时 间 戳 t， 还 会 给 出 一 个 误差 e。 例 
如 ， 返 回 的 时 间 惟 是 20 点 23 分 30 秒 100 毫 秒 ， 而 误差 是 5 毫秒 ， 那 么 真 
实 的 时 间 在 20 点 23 分 30 秒 95 毫 秒 到 105 毫 秒 之 间 。 真 实 的 系统 e 平 均 下 
来 具有 4 毫秒 。 


TrueTime API 实 现 的 基础 是 GPS 和 原子 钟 。 之 所 以 要 用 两 种 技术 来 处 
理 ， 是 因为 导致 这 两 种 技术 失效 的 原因 是 不 同 的 。GPS 会 有 一 个 天 线 ， 
电波 干扰 会 导致 其 失灵 。 原 子 钟 很 稳定 。 当 GPS 失灵 的 时 候 ， 原 子 钟 仍 
然 能 保证 在 相当 长 的 时 间 内 ， 不 会 出 现 偏 差 。 


每 个 数据 中 心 需要 部 署 一 些 主 时 钟 服务 器 (Master) ， 其 他 机 器 上 部 署 
一 个 从 时 钟 进程 (Slave) 来 从 主 时 钟 服务 器 同步 时 钟 信息 。 有 的 主 时 
钟 服务 右 用 GPS， 有 的 主 时 钟 服务 占用 原子 钟 。 每 个 从 时 钟 进程 每 阳 30 
秒 会 从 若干 个 主 时 钟 服务 器 同步 时 钟 信息 。 主 时 钟 服务 妖 自 己 还 会 将 
最 新 的 时 间 信 息 和 本 地 时 钟 比 对 ， 排 除 掉 偏 差 比 较 大 的 结果 。 


7.3.5 并 发 控制 


Spanner 使 用 TrueTime 来 控制 并 发 ， 实 现 外 部 一 臻 性， 支持 以 下 几 种 事 


e 只 读 事 务 

e 快 照 恋 ， 客 户 问 提供 时 间 惟 

e 快 照 读 ， 客 户 端 提供 时 间 玫 
1. 不 考 虚 TrueTime 


首先 ， 不 考虑 TrueTime 的 影响 ， 也 了 束 是 说 ， 假 设 TrueTime API 获 得 的 时 
间 是 精确 的 。 如 果 事 务 读 写 的 数据 只 属于 同一 个 Paxos 组 ， 那 么 ， 每 个 
读 写 事务 的 执行 步骤 如 下 : 


1) 获取 系统 的 当前 时 间 戳 ; 


2) 执行 读 写 操作 ， 并 将 第 1 步 取得 的 时 间 戳 作为 事务 的 提交 版 本 。 


每 个 只 读 事 务 的 执行 步骤 如 下 


性 


1) 获取 系统 的 当前 时 间 戳 ， 作 为 读 事务 的 版 本 ; 


2) 执行 读 取 操 作 ， 返 回 客户 端 所 有 提交 版 本 小 于 读 事务 版 本 的 事务 操 
作 结果 。 


快照 读 和 只 读 事 务 的 区 别 在 于 ， 快照 读 将 指定 读 事务 的 版 本 ， 而 不 是 
取 系 统 的 当前 时 间 惟 。 


如 果 事 务 读 写 的 数据 涉及 多 个 Paxos 组 ， 那 么 ， 对 于 读 写 事务 ， 需 要 执 
行 一 次 两 阶段 提交 协议 ， 执 行 步骤 如 下 : 


1) Prepare: 客户 端 将 数据 发 往 多 个 Paxos 组 的 主 副 本 ， 同 时 ， 协 调 者 
主 副 本 发 起 prepare 协 议 ， 请 求 其 他 的 参与 者 主 副本 锁 住 需 要 操作 的 数 
据 。 


2) Commit: 协调 者 主 副本 发 起 Commit 协 议 ， 要 求 每 个 参与 者 主 副 本 
执行 提交 操作 并 解除 Prepare 阶 段 锁定 的 数据 。 协 调 者 主 副 本 可 以 将 它 
的 当前 时 间 鹤 作为 该 事务 的 提交 版 本 ， 并 发 送 给 每 个 参与 者 主 副本 。 


只 读 事 务 读 取 每 个 Paxos 组 中 提交 版 本 小 于 读 事 务 版 本 的 事务 操作 结 
° 需要 注意 的 是 ， 只 读 事务 需要 保证 不 会 读 到 不 完整 的 事务 。 假 设 


浊 


有 一 个 读 写 事务 修改 了 两 个 Paxos 组 : Paxos 组 A 和 Paxos 组 B,Paxos 组 A 
上 的 修改 已 提交 ，Paxos 组 B 上 的 修改 还 未 提交 。 那 么 ， 只 读 事务 会 发 
现 Paxos 组 B 处 于 两 阶段 提交 协议 中 的 Prepare 阶 段 ， 需 要 等 待 一 会 ， 直 
到 Paxos 组 B 上 的 修改 生效 后 才能 读 到 正确 的 数据 。 


2. 考 虑 TrueTime 


如 有 宁 考 虑 TrueTime， 并 发 控制 变 得 复杂 。 这 里 的 核心 思想 在 于 ， 只 
事务 T1 的 提交 操作 早 于 事务 T2 的 开始 操作 ， 即 使 考虑 TrueTime API 的 
误差 因素 (-e 到 +e 之 间 ，e 值 平均 为 4ms) ，Spanner 也 能 保证 事务 T1 的 
提交 版 本 小 于 事务 T2 的 提交 版 本 。Spanner 使 用 了 一 种 称 为 征 迟 提 交 

(Commit Wait) 的 手段 ， 即 如 果 事 务 T1 的 提交 版 本 为 时 间 戳 tcommit， 
那么 ， 事 务 T1 会 在 tcommit+te 之 后 才能 提交 。 另 外 ， 如 有 果 事 务 T2 开 始 的 
绝对 时 间 为 tabs， 那 么 事务 T2 的 提交 版 本 至 少 为 tabste。 这 样 ， 束 保证 
了 事务 T1 和 T2 之 间 严 格 的 顺序 ， 当 然 ， 这 也 意味 着 每 个 写 事务 的 延 时 
至 少 为 2e。 从 这 一 点 也 可 以 看 出 ，Spanner 实 现 功能 完备 的 全 球 数据 库 
是 付出 了 一 定 代价 的 ， 设 计 架 构 时 不 能 育 目 崇拜 。 


7.3.6 数据 迁移 


目 孙 站 Spanner 中 对 数据 分 区 、 复 制 和 迁移 的 基本 单位 ， 用 户 可 以 指定 
一 个 目 孙 有 多 少 个 副本 ， 分 别 存放 在 哪些 机 房 中 ， 例 如 将 用 户 的 目录 
存放 在 这 个 用 户 所 在 地 区 附近 的 几 个 机 房 中 。 


一 个 Paxos 组 包含 多 个 目录 ， 目 录 可 以 在 Paxos 组 之 间 移 动 。Spanner 移 
动 一 个 目录 一 般 出 于 以 下 几 种 考虑 ; 


e 革 个 Paxos 组 的 负载 太 大 ， 需 要 切 分 ; 


e 将 数据 移动 到 离 用 户 更 近 的 地 方 ， 减 少 访问 延 时 ; 


e 把 经 节 一 起 访问 的 目 永 放 进 同一 个 Paxos 组 。 


移动 目录 的 操作 在 后 台 进 行 ， 不 影响 前 台 的 客户 端 读 写 操作 。 一 般 来 
说 ,移动 一 个 50MB 的 目录 大 约 只 需要 几 秒 钟 时 间 。 实 现时 ， 首 先 将 目 
隶 的 实际 数据 移动 到 指定 位 置 ， 然 后 再 用 一 个 原子 操作 更 新 元 数据 ， 
从 而 完成 整个 移动 过 程 。 


7.3.7 讨论 


Google 的 分 布 式 存储 系统 一 步 步 地 从 Bigtable 到 Megastore， 再 到 
Spanner， 这 也 印证 了 分 布 式 技 术 和 传统 关系 数据 库 技 术 融 合 的 必然 
性 ， 即 底层 通过 分 布 式 技术 实现 可 扩展 性 ， 上 层 通过 关系 数据 库 的 模 
型 和 接口 将 系统 的 功能 暴露 给 用 户 。 


阿里 巴巴 的 OceanBase 系 统 在 设计 之 初 就 考虑 到 这 两 种 技术 融合 的 必然 
性 ， 因 此 ， 一 开始 束 将 系统 的 最 终 目 标定 为 :可 扩展 的 天 系数 据 库 。 
目前 ，OceanBase 已 经 开发 完成 了 部 分 功能 并 在 阿里 巴巴 各 个 子 公 司 获 
得 广泛 的 应 用 。 本 书 第 三 篇 将 详细 介绍 OceanBase 的 反 术 细节 。 


本 书 由 “ePUBw.COM” 整 理 ，ePUBw.COM 提供 
最 新 最 全 的 优质 电子 书 下 载 ! ! ! 


第 8 章 OceanBase 架 构 初 探 
第 9 章 分 布 式 存储 引擎 


第 10 半 数据 库 功 能 


第 8 章 OceanBase 架 构 初 探 


OceanBase 是 阿里 集团 研发 的 可 扩展 的 天 系数 据 库 ， 实 现 了 数 千 亿 条 记 
杂 、 数 百 TB 数 据 上 的 跨行 跨 表 事 务 ， 截 止 到 2012 年 8 月 ， 文 持 了 收藏 

夹 、 直 通车 报表 、 天 猫 评价 等 OLTP 和 OLAP 在 线 业务 ， 线 上 数据 量 已 

TT 


从 模块 划分 的 角度 看 ，OceanBase 可 以 划分 为 四 个 模块 : 主 控 服 务 需 
RootServer、 更 新 服务 器 UpdateServer、 基 线 数据 服务 器 ChunkServer 以 
及 合并 服务 器 MergeServer。OceanBase 系 统 内 部 按照 时 间 线 将 数据 划分 
为 基线 数据 和 增 量 数据 ， 基 线 数 据 是 只 读 的 ， 所 有 的 修改 更 狐 到 增 量 
数据 中 ， 系 统 内 部 通过 合并 操作 定期 将 增 量 数据 融合 到 基线 数据 中 。 
本 章 介 绍 OceanBase 系 统 的 设计 思路 和 整体 架构 。 


8.1 背景 简介 


淘宝 是 一 个 迅速 发 展 的 网 站 。 全 球 网 站 排名 公司 Alexa 提 供 的 数据 显 
示 ，2010 年 4 月 27 日 ，Amazon、EBay 的 用 户 占 全 球 互 联网 用 户 的 百 分 
比分 别 为 3.47% 和 2.68%， 而 淘宝 的 用 户 占 全 球 互联 网 用 户 的 百分比 则 
达到 了 4.1%， 淘 宝 网 日 独立 访问 量 从 此 超过 了 Amazon 和 EBay。 


淘宝 的 数据 规模 及 其 访问 量 对 关系 数据 库 近 出 了 很 大 挑战 ， 数 百 亿 条 
的 记录 、 数 十 TB 的 数据 、 数 万 TPS、 数 十 万 QPS 让 传统 的 天 系数 据 库 不 
堪 重 人 负 ， 单 纯 的 硬件 升级 已 经 无 法 使 问题 得 到 解决 ， 分 库 分 表 也 并 不 
总 是 竣 效 。 下 面 来 看 一 个 实际 的 例子 。 


淘宝 收藏 夹 是 淘宝 线 上 应 用 之 一 ， 淘 宝 用 户 在 其 中 保存 自己 感 兴 趣 的 
宝贝 〈 即 商品 ， 此 外 用 户 也 可 以 收藏 感 兴趣 的 店铺 ) 以便 下 次 快速 访 
问 、 对 比 和 购买 等 ， 用 户 可 以 展示 和 编辑 (添加 /删除 ) 自己 的 收藏 。 


淘宝 收藏 夹 数据 库 包 含 了 收藏 info 表 (一 条 一 条 的 收藏 信息 ) 和 收藏 
item 表 (被 收藏 的 宝贝 和 店铺 ) 等 : 


e 收 藏 info 表 保存 收藏 信息 条 目 ， 数 百 亿 条 。 


e 收 藏 item 表 保存 收藏 的 宝贝 和 店铺 的 详细 信息 ， 数 十 亿 条 。 


。 热 门 宝贝 可 能 被 多 达 数 十 万 买 家 收藏 。 


e 每 个 用 户 可 以 收藏 干 个 宝贝 。 


e 宝 由 的 价格 、 收 藏 人 气 等 信息 随时 变化 。 


如 采用 户 选 择 按 宝 贝 价格 排序 后 展示 ， 那 么 数据 库 需 要 从 收藏 tem 表 中 
读 取 收藏 的 宝贝 的 价格 等 最 新 信息 ， 然 后 进行 排序 处 理 。 如 采用 户 的 
收藏 条 目 比 较 多 (例如 4000 条 ) ， 那 么 查询 对 应 的 item 的 时 间 会 较 长 : 
假设 如 果 平 均 每 条 item 查 询 时 间 是 sms， 则 4000 条 的 查询 时 间 可 能 达到 
20s， 如 果真 如 此 ， 则 用 户 体 验 会 很 差 。 


如 采 把 收藏 的 宝贝 的 详细 信息 实时 宛 余 到 收藏 info 表 ， 则 上 述 查 询 收藏 
item 表 的 操作 就 不 再 需要 了 “。 但 是 ， 由 于 许多 热门 商品 可 能 有 几 和 于 到 几 
十 万 人 人 收藏， 这些 热 门 商品 的 价格 等 信息 的 变动 可 能 导致 收藏 info 表 的 
大 量 修改 ， 并 上 压 垮 数 据 库 。 


为 此 ， 阿 里 巴巴 需要 研发 适合 互联 网 规模 的 分 布 式 数据 库 ， 这 个 数据 
库 不 仅 要 能 解决 收藏 夹 面临 的 业务 挑战 ， 还 要 能 做 到 可 扩展 、 低 成 

本 、 易 用 ， 并 能 够 应 用 到 更 多 的 业务 场景 。 为 此 ， 淘 宝 研 发 了 千 亿 级 
海量 数据 库 OceanBase， 并 且 已 经 于 2011 年 8 月 的 开源 
(http://oceanbase.taobao.org/) 。 虽 然 距离 OceanBase 开 源 已 经 超过 一 年 
多 的 时 间 ， 但 OceanBase 系 统 还 有 很 多 的 问题 ， 其 中 以 易 用 性 和 可 运 维 
性 最 为 严重 。OceanBase 团 队 一 直 在 不 断 完善 着 系统 ， 同 时 ， 我 们 也 很 
乐意 把 设计 开发 过 程 中 的 一 些 经 验 分 享 出 来 。 


8.2 设计 思路 

OceanBase 的 目标 是 支持 数 百 TB 的 数据 量 以 及 数 十 万 TPS、 数 百 万 QPS 
的 访问 量 ， 无 论 是 数据 量 还 是 访问 量 ， 即 使 采用 非常 昂贵 的 小 型 机 其 
至 是 大 型 机 ， 单 台 关 系数 据 库 系 统 都 无 法 承受 。 


一 种 利 见 的 做 法 是 根据 业务 特点 对 数据 库 进 行 水 平 折 分 ， 通 音 的 做 法 
是 根据 某 个 业务 字段 (通常 取 用 户 编号 ，user_id) 哈 希 后 取 模 ， 根 据 
取 模 的 结果 将 数据 分 布 到 不 同 的 数据 库 服 务 问 上 ， 客 三 剖 请 求 通过 数 
据 库 中 间 层 路 由 到 不 同 的 分 区 。 这 种 方式 目前 还 存在 一 定 的 束 端 ， 如 
下 所 尿 : 


e 数 据 和 负载 增加 后 添加 机 器 的 操作 比较 复杂 ， 往 往 需 要 人 工 介 入 ; 


se 有些 范 围 查询 需要 访问 几乎 所 有 的 分 区 ， 例 如 ， 按 照 user_ id 分 区 , 碍 
询 收藏 了 一 个 商品 的 所 有 用 户 需要 访问 所 有 的 分 区 ; 


e 目 前 广泛 使 用 的 关系 数据 库存 储 引 擎 都 征 针 对 机 械 硬 弄 的 特点 设计 
的 ， 不 能 够 完全 发 挥 新 硬件 (SSD) 的 能 


另外 一 种 做 法 是 参考 分 布 式 表格 系统 的 做 法 ， 例 如 Google Bigtable 系 
统 ， 将 大 表 划 分 为 几 万 、 儿 十 万 甚至 儿 百 万 个 子 表 ， 子 表 之 间 按 照 主 
键 有 序 ， 如 果 某 台 服 务 顺 发生 故 障 ， 它 上 面 服务 的 数据 能 够 在 很 短 的 
时 间 内 目 动 迁移 到 集群 中 所 有 的 其 他 服务 器。 这 种 方式 解决 了 可 扩展 
性 的 问题 ， 少 量 突 发 的 服务 器 故障 或 者 增加 服务 器 对 使 用 者 基本 十 透 
明 的 ， 能 够 轻松 应 对 促销 或 者 热点 事件 等 突 发 流量 增长 。 另 外 ， 由 于 
子 表 是 按照 主键 有 序 分 布 的 ， 很 好 地 解决 了 范围 查询 的 问题 。 


万 事 有 其 利 必 有 一 王 ， 分 布 式 表 格 系统 虽然 解决 了 可 扩展 性 问题 ， 但 
往往 无 法 文 持 事务 ， 例 如 Bigtable 只 文 持 单行 事务 ， 针 对 同一 个 user_ id 
下 的 多 条 记录 的 操作 都 无 法 倚 证 原子 性 。 而 OceanBase 斋 望 能 够 文 持 路 
行 跨 表 事务 ， 这 样 使 用 起 来 会 比较 方便 。 


最 直接 的 做 法 是 在 Bigtable 开 源 实现 (如 HBase 或 者 Hypertable) 的 基础 
上 引入 两 阶段 提交 (Two-phase Commit) 协议 支持 分 布 式 事务 ， 这 种 
思路 在 Google 的 Percolator 系 统 中 得 到 了 体现 。 然 而 ，Percolator 系 统 
事务 的 平均 响应 时 间 达 到 2~5 秒 ， 只 能 应 用 在 类 似 网 页 建 库 这 样 的 半 


线 上 业务 中 。 另 外 ，Bigtable 的 开源 实现 也 不 够 成 熟 ， 单 台 服 务 器 能 够 
文 持 的 数据 量 有 限 ， 单 个 请 求 的 最 大 啊 应 时 间 很 难得 到 保证 ， 机 豆 故 
隐 等 异常 处 理 机 制 也 有 很 多 比较 严重 的 问题 。 总 体 上 看 ， 这 种 做 法 的 
工作 量 和 难度 超出 了 项 目 组 的 承受 能 力 ， 因 此 ， 我 们 需要 根据 业务 特 
点 做 一 些 定 制 。 


通过 分 析 ， 我 们 发 现 ， 虽 然 在 线 业务 的 数据 量 十 分 上 庞大， 例如 几 十 亿 
条 、 上 百 亿 条 甚至 更 多 记录 ， 但 最 近 一 段 时 间 (例如 一 天 ) 的 修改 量 


~ 


往往 并 不 多 ， 通 前 不 超过 几 千 万 条 到 几 亿 条 ， 因 此 ，OceanBase 决 定 采 
用 单 台 更 新 服务 器 来 记录 最 近 一 段 时 间 的 修改 增 量 ， 而 以 前 的 数据 保 
持 不 变 ， 以 前 的 数据 称 为 基线 数据 。 基 线 数 据 以 类 似 分 布 式 文件 系统 
的 方式 存储 于 多 台 基 线 数据 服务 器 中 ， 每 次 查询 都 需要 把 基线 数据 和 
增 量 数据 融合 后 返回 给 客户 端 。 这 样 ， 写 事务 都 集中 在 单 台 更 新 服务 
器 上 ， 避 免 了 复杂 的 分 布 式 事务 ， 高 效 地 实现 了 跨行 跨 表 事务 ， 另 
外 ， 更 新 服务 右上 的 修改 增 量 能 够 定期 分 发 到 多 台 基 线 数 据 服 务 妖 
中 ， 避 免 成 为 瓶颈 ， 实 现 了 民 好 的 扩展 性 。 


当然 ， 单 台 更 新 服务 郁 的 处 理 能 力 总 是 有 一 定 的 限制 。 因 此 ， 更 新 服 
务 占 的 硬件 配置 相对 较 好 ， 如 内 存 较 大 、 网 卡 及 CPU 较 好 ， 男 外 ， 最 
近 一 段 时 间 的 更 新 操作 往往 总 十 能 够 存放 在 内 存 中 ， 在 软件 层面 也 和 针 
对 这 种 场景 做 了 大 量 的 优化 。 


8.3 系统 架构 


8.3.1 整体 架构 图 


OceanBase 的 整体 架构 如 图 8-1 所 示 。 


图 8-1 OceanBase 整 体 架构 图 
OceanBase 由 如 下 几 个 部 分 组 成 : 


e 容 户 端 : 用 户 使 用 OceanBase 的 方式 和 MySQL 数 据 库 完全 相同 ， 文 持 
JDBC、C 客 户 端 访 问 ， 等 等 。 基 于 MySQL 数 据 库 开 发 的 应 用 程序 、 工 
具 能 够 直接 迁移 到 OceanBase。 


eRootServer: 管理 集群 中 的 所 有 服务 器 ， 子 表 (tablet) 数据 分 布 以 及 
副本 管理 。RootServer 一 般 为 一 主 一 备 ， 主 备 之 间 数 据 强 同 步 。 


eUpdateServer: 存储 OceanBase 系 统 的 增 量 更 新 数据 。UpdateServer 一 
般 为 一 主 一 备 ， 主 备 之 间 可 以 配置 不 同 的 同步 模式 。 部 署 时 ， 


UpdateServer 进 程 和 RootServer 进 程 往往 共用 物理 服务 器 。 


eChunkServer: 存储 OceanBase 系 统 的 基线 数据 。 基 线 数据 一 般 存储 两 
份 或 者 三 份 ， 可 配置 。 


eMergeServer: 接收 并 解析 用 户 的 SQL 请 求 ， 经 过 词法 分 析 、 语 法 分 
析 、 查 询 优化 等 一 系列 操作 后 转发 给 相应 的 ChunkServer 或 者 
UpdateServer。 如 果 请 求 的 数据 分 布 在 多 台 ChunkServer 上 ， 
MergeServer 还 需要 对 多 台 ChunkServer 返 回 的 结果 进行 合并 。 客 户 端 和 
MergeServer 之 间 采 用 原生 的 MySQL 通 信 协 议 ，MySQL 客 户 端 可 以 直接 
访问 MergeServer 。 


OceanBase 文 持 部 署 多 个 机 房 ， 每 个 机 房 部 署 一 个 包含 RootServer、 
MergeServer、ChunkServer 以 及 UpdateServer 的 完整 OceanBase 集 群 ， 
个 集群 由 各 目的 RootServer 负 责 数据 划分 、 负 载 均衡 、 集 群 服务 器 管理 
等 操作 ， 集 群 之 间 数 据 同步 通过 主 集群 的 主 UpdateServer 往 备 集群 同步 
增 量 更 新 操作 日 志 实 现 。 客 户 端 配置 了 多 个 集群 的 RootServer 地 址 列 
表 ， 使 用 者 可 以 设置 每 个 集群 的 流量 分 配 比 例 ， 客 户 端 根据 这 个 比例 
将 读 写 操作 发 往 不 同 的 集群 。 图 8-2 是 双 机 房 部 署 示 意图 。 
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图 8-2 OceanBase 双 机 房 部 署 
8.3.2 客户 端 
OceanBase 客 户 端 与 MergeServer 通 信 ， 目 前 主要 文 持 如 下 几 种 客户 端 : 


eMySQL 客 户 端 ， MergeServer 兼 容 MySQL 协 议 ，MySQL 客 户 端 及 相关 
工具 (如 Java 数据 库 访 问 方式 JDBC) 只 需要 将 服务 器 的 地 址 设置 为 任 
意 一 台 Merge-Server 的 地 址 ， 就 可 以 直接 使 用 。 


eJava 客 户 端 : OceanBase 内 部 部 署 了 多 台 MergeServerJava 客 户 端 提 供 
对 MySQL 标 准 JDBC Driver 的 封装 ， 并 提供 流量 分 配 、 负 载 均 衡 、 
MergeServer 寞 名 处理 等 功能 。 简 单 来 讲 ，Java 客 户 问 百 移 按 照 一 定 的 
策略 定位 到 某 台 MergeServer， 接 着 调用 MySQL JDBC Driver 往 这 全 
MergeServer 发 送 读 写 请 求 。Java 客 户 端 实 现 符合 JDBC 标 准 ， 能 够 文 持 


Spring、iBatis 等 Java 编 程 框架 。 


eC 客户 端 ” OceanBase C 客 户 端的 功能 和 Java 客 户 端 类 似 。 它 首先 按照 
一 定 的 策略 定位 到 某 台 MergeServer， 接 着 调用 MySQL 标 准 C 客 户 端 往 
这 台 MergeServer 发 送 读 写 请 求 。C 客 户 端 的 接口 和 和 MySQL 标准 C 客 户 端 
接口 完全 相同 ， 因 此 ， 能 够 通过 LD_PRELOAD 的 方式 将 应 用 程序 依赖 
的 MySQL 标 准 C 客 户 端 替 换 为 OceanBase C 客 户 端 ， 而 无 需 修改 应 用 程 
序 的 代码 。 


OceanBase 集 群 有 多 台 MergeServer， 这 些 MergeServer 的 服务 器 地 址 存 
储 在 OceanBase 服 务 器 端的 系统 表 (与 Oracle 的 系统 表 类 似 ， 存 储 

OceanBase 系 统 的 元 数据 ) 内 。OceanBase Java/C 客 户 端 首先 请 求 服务 
铝 端 获取 MergeServer 地 址 列表 ， 接 着 按照 一 定 的 策略 将 读 写 请 求 发 送 
给 某 台 MergeServer， 并 负责 对 出 现 故 障 的 MergeServer 进 行 容 错 处 理 。 


Java/C 客 户 端 访问 OceanBase 的 流程 大 致 如 下 : 


1) 请 求 RootServer 获 取 集 群 中 MergeServer 的 地 址 列表 。 


2) 按照 一 定 的 策略 选择 某 台 MergeServer 发 送 读 写 请 求 。 客 户 端 与 
MergeServer 之 间 的 通信 协议 兼容 原生 的 MySQL 协 议 ， 因 此 ， 只 需要 调 
用 MySQL JDBC Driver 或 者 MySQL C 客 户 端 这 样 的 标准 库 即 可 。 客 户 
端 文 持 的 策略 主要 有 两 种 : 随机 以 及 一 致 性 哈 希 。 一 致 性 哈 希 的 主要 
目的 是 将 相同 的 SQL 请 求 发 送 到 同一 侣 MergeServer， 方 便 MergeServer 
对 碍 询 结果 进行 缓存 。 


3) 如 果 请 求 MergeServer 失 败 ， 则 从 MergeServer 列 表 中 重新 选择 一 台 
MergeServer 重 试 ， 如 果 请 求 某 台 MergeServer 失 败 超过 一 定 的 次 数 ， 将 
这 人 台 MergeServer 加 入 墨 名 单 并 从 MergeServer 列 表 中 删除 。 另 外 ， 客 户 


轴 


山 会 定期 请 求 RootServer 更 新 MergeServer 地 址 列表 。 


如 采 OceanBase 部 署 多 个 集群 ， 客 户 端 还 需要 处 理 多 个 集群 的 流量 分 配 
问题 。 使 用 者 可 以 设置 多 个 集群 之 间 的 流量 分 配 比例 ， 客 户 端 获 取 到 
流量 分 配 比例 后 ， 按 照 这 个 比例 将 请 求 发 送 到 不 同 的 集群 。 


OceanBase 程 序 升级 版 本 时 ， 往 往 先 将 备 集群 的 读 取 流 量 调整 为 0， 这 
时 所 有 的 读 写 请 求 都 只 发 往 主 集群 ， 接 着 升级 备 集群 的 程序 版 本 。 备 
集群 升级 完成 后 将 流量 逐步 切换 到 备 集群 观察 一 段 时 间 ， 如 果 没 有 出 
现 异 党 ， 则 将 所 有 的 流量 切 到 备 集 群 ， 并 将 备 集群 切换 为 主 集群 近 供 
写 服务 。 原 来 的 主 集群 变 为 新 的 备 集群 ， 升 级 新 的 备 集群 的 程序 版 本 
后 重新 分 配 主 备 集群 的 流量 比例 。 


8.3.3 RootServer 
RootServer 的 功能 主要 包括 : 集群 管理 、 数 据 分 布 以 及 副本 管理 。 


RootServer 管 理 集群 中 的 所 有 MergeServer、ChunkServer 以 及 
UpdateServer。 每 个 集群 内 部 同一 时 刻 只 允许 一 个 UpdateServer 提 供 写 
服务 ， 这 个 UpdateServer 成 为 主 UpdateServer。 这 种 方式 通过 牺牲 一 定 
的 可 用 性 获取 了 强 一 致 性 。RootServer 通 过 租约 (Lease) 机 制 选 择 唯 
一 的 主 UpdateServer， 当 原先 的 主 UpdateServer 发 生 故 障 后 ，RootServer 
能 够 在 原先 的 租约 失效 后 选择 一 台新 的 UpdateServer 作 为 主 
UpdateServer。 男 外 ，RootServer 与 MergeServer 尺 ChunkServer 之 间 保 持 
心跳 (heartbeat) ， 从 而 能 够 感知 到 在 线 和 已 经 下 线 的 MergeServer& 


ChunkServer 机 器 列表 。 


OceanBase 内 部 使 用 主键 对 表格 中 的 数据 进行 排序 和 存储 ， 主 键 由 若干 
列 组 成 并 且 具 有 唯一 性 。 在 OceanBase 内 部 ， 基 线 数 据 按照 主键 排序 并 
且 划 分 为 数据 量 大 致 相等 的 数据 范围 ， 称 为 子 表 (tablet) 。 每 个 子 表 
的 默认 大 小 是 256MB 〈 可 配置 ) 。OceanBase 的 数据 分 布 方式 与 
Bigtable 一 样 采用 顺序 分 布 ， 不 同 的 是 ，OceanBase 没 有 采用 根 表 
(RootTable) + 元 数据 表 (MetaTable) 两 级 索引 结构 ， 而 是 采用 根 表 
一 级 索引 结构 。 


如 图 8-3 所 示 ， 主 键 值 在 1L，100] 之 间 的 表格 被 划分 为 四 个 子 表 : 1~ 
25，26~50，51~80 以 及 81~100。RootServer 中 的 根 表 记 录 了 每 个 子 
表 所 在 的 ChunkServer 位 置信 息 ， 每 个 子 表 包含 多 个 副本 (一 般 为 三 个 
副本 ， 可 配置 ) ， 分 布 在 多 台 ChunkServer 中 。 当 其 中 某 台 ChunkServer 
发 生 故 障 时 ，RootServer 能 够 检测 到 ， 并 且 触 发 对 这 人 台 ChunkServer 上 的 
子 表 增 加 副本 的 操作 ;另外 ，RootServer 也 会 定期 执行 负载 均衡 ， 选 择 
某 些 子 表 从 负载 较 高 的 机 器 迁移 到 负载 较 低 的 机 器 上 。 


主键 范围 ，1-~25 26~50 51~80 81~100 


图 8-3 基线 数据 于 表 划 分 


RootServer 采 用 一 主 一 备 的 结构 ， 主 备 之 间 数 据 强 同步 ， 并 通过 Linux 
HA (http://www.linux-ha.org) 软件 实现 高 可 用 性 。 主 备 RootServer 之 间 
共享 VIP， 当 主 RootServer 发 生 故 障 后 ，VIP 能 够 自动 漂移 到 备 
RootServer 所 在 的 机 器 ， 备 RootServer 检 测 到 以 后 切换 为 主 RootServer 提 


供 服务 。 


8.3.4 MergeServer 


MergeServer 的 功能 主要 包括 : 协议 解析 、SQL 解 析 、 请 求 转 发 、 结 末 
合并 、 多 表 操 作 等 。 


OceanBase 客 户 端 与 MergeServer 之 间 的 协议 为 MySQL 协 议 。 
MergeServer 首 先 解析 MySQL 协 议 ， 从 中 提取 出 用 户 发 送 的 SQL 语句 ， 
接着 进行 词法 分 析 和 语法 分 析 ， 生 成 SQL 语句 的 逻辑 查询 计划 和 物理 
查询 计划 ， 最 后 根据 物理 查询 计划 调用 OceanBase 内 部 的 各 种 操作 符 。 


MergeServer 绥 存 了 了 于 表 分 布 信息 ， 根 据 请 求 涉 及 的 子 表 将 请 求 转发 给 
该 子 表 所 在 的 ChunkServer。 如 果 是 写 操 作 ， 还 会 转发 给 UpdateServer。 
某 些 请 求 需要 跨 多 个 子 表 ， 此 时 MergeServer 会 将 请 求 拆 分 后 发 送 给 多 
台 ChunkServer， 并 合并 这 些 ChunkServer 返 回 的 结果 。 如 果 请 求 涉及 多 
个 表格 ，MergeServer 需 要 首先 从 ChunkServer 获 取 每 个 表格 的 数据 ， 接 
着 再 执行 多 表 关 联 或 者 藤 套 查询 等 操作 。 


MergeServer 文 持 并 发 请 求 多 人 台 ChunkServer， 即 将 多 个 请 求 发 给 多 人 台 
ChunkServer， 再 一 次 性 等 待 所 有 请 求 的 应 答 。 另 外 ， 在 SQL 执行 过 程 
中 ， 如 果 某 个 子 表 所 在 的 ChunkServer 出 现 故障 ，MergeServer 会 将 请 求 
转发 给 该 子 表 的 其 他 副本 所 在 的 ChunkServer。 这 样 ，ChunkServer 故 障 
是 不 会 影响 用 户 查 询 的 。 


MergeServer 本 喘 是 没有 状态 的 ， 因 此 ，MergeServer 宕 机 不 会 对 使 用 者 
产生 影响 ， 客 户 端 会 目 动 将 发 生 故 障 的 MergeServer 屏 蔽 掉 。 


8.3.5 ChunkServer 


ChunkServer 的 功能 包括 : 存储 多 个 子 表 ， 提 供 读 取 服务 ， 执 行 定期 合 
并 以 及 数据 分 发 。 


OceanBase 将 大 表 划 分 为 大 小 约 为 256MB 的 子 表 ， 每 个 子 表 由 一 个 或 者 
多 个 SSTable 组 成 〈 一 般 为 一 个 ) ， 每 个 SSTable 由 多 个 块 (Block， 大 
小 为 4KB~64KB 之 间 ， 可 配置 ) 组 成 ， 数 据 在 SSTable 中 按照 主键 有 序 
人 存储。 查找 某 一 行 数据 时 ， 需 要 首先 定位 这 一 行 所 属 的 子 表 ， 接 着 在 
相应 的 SSTable 中 执行 二 分 查找 。SSTable 支 持 两 种 缓存 模式 ， 块 缓存 
(Block Cache) 以 及 行 缓存 (Row Cache) 。 块 缓存 以 块 为 单位 缓存 最 
近 读 取 的 数据 ， 行 缓存 以 行为 单位 缓存 最 近 读 取 的 数据 。 


MergeServer 将 每 个 子 表 的 读 取 请 求 发 送 到 子 表 所 在 的 
ChunkServerChunkServer 首 先 读 取 SSTable 中 包含 的 基线 数据 ， 接 着 请 
求 UpdateServer 获 取 相 应 的 增 量 更 新 数据 ， 并 将 基线 数据 与 增 量 更 新 融 


合 后 得 到 最 终结 末 。 


由 于 每 次 读 取 都 需要 从 UpdateServer 中 获取 最 新 的 增 量 更 新 ， 为 了 保证 
读 取 性 能 ， 需 要 限制 UpdateServer 中 增 量 更 新 的 数据 量 ， 最 好 能 够 全 首 
存放 在 内 存 中 。OceanBase 内 部 会 定期 触发 合并 或 者 数据 分 发 操作 ， 在 
这 个 过 程 中 ，ChunkServer 将 从 UpdateServer 获 取 一 段 时 间 之 前 的 更 新 操 
作 。 通 常情 况 下 ，OceanBase 和 集群 会 在 每 天 的 服务 低 峰 期 (凌晨 1:00 开 


始 ， 可 配置 ) 执行 一 次 合并 操作 。 这 个 合并 操作 往往 也 称 为 每 日 合 
人 


8.3.6 UpdateServer 


UpdateServer 是 集群 中 唯一 能 够 接受 写 入 的 模块 ， 每 个 集群 中 只 有 一 个 
主 Update-Server。UpdateServer 中 的 更 新 操作 百 先 写 入 到 内 存 表 ， 当 内 
存 表 的 数据 量 超过 一 定 值 时 ， 可 以 生成 快照 文件 并 转 储 到 SSD 中 。 快 照 
文件 的 组 织 方 式 与 ChunkServer 中 的 SSTable 类 似 ， 因 此 ， 这 些 快照 文件 
也 称 为 SSTable。 另 外 ， 由 于 数据 行 的 某 些 列 被 更 新 ， 某 些 列 没 被 更 
新 ，SSTable 中 存储 的 数据 行 是 稀 巩 的 ， 称 为 稀 臣 型 SSTable。 


为 了 保证 可 靠 性 ， 主 UpdateServer 更 新 内 存 表 之 前 需要 首先 写 操作 日 

志 ， 并 同步 到 备 UpdateServer。 当主 UpdateServer 发 生 故 障 时 ， 

RootServer 上 维护 的 租约 将 失效 ， 此 时 ，RootServer 将 从 备 UpdateServer 

列表 中 选择 一 台 最 新 的 备 UpdateServer 切 换 为 主 UpdateServer 继 续 提 供 

写 服 务 。UpdateServer 宕 机 重启 后 需要 首先 加 载 转 储 的 快照 文件 
(SSTable 文 件 ) ， 接 着 回放 快照 点 之 后 的 操作 日 志 。 


由 于 集群 中 只 有 一 台 主 UpdateServer 提 供 写 服务 ， 因 此 ，OceanBase 很 
容易 地 实现 了 跨行 跨 表 事 务 ， 而 不 需要 采用 传统 的 两 阶段 提交 协议 。 
当然 ， 这 样 也 市 来 了 一 系列 的 问题 。 由 于 整个 集群 所 有 的 读 写 操作 都 
必须 经 过 UpdateServer,UpdateServer 的 性 能 至 天 重要 。OceanBase 集 群 通 


过 定期 合并 和 数据 分 发 这 两 种 机 制 将 UpdateServer 一 段 时 间 之 前 的 增 量 
更 新 源源 不 断 地 分 散 到 ChunkServer， 而 UpdateServer 只 需要 服务 最 新 一 
小 段 时 间 新 增 的 数据 ， 这 些 数据 往往 可 以 全 部 存放 在 内 存 中 。 男 外 ， 
系统 实现 时 也 需要 对 UpdateServer 的 内 存 操作 、 网 络 框架 、 人 磁盘 操作 做 
头 量 的 优化 


8.4 架构 剖析 


8.4.1 一 致 性 选择 


Eric Brewer 教 授 的 CAP 理 论 指出 ， 在 满足 分 区 可 容忍 性 的 前 提 下 ， 一 致 
性 和 可 用 性 不 可 兼 得 。 


虽然 目前 大 量 的 互联 网 项 目 选择 了 弱 一 致 性 ， 但 我 们 认为 这 是 确 层 存 
储 系统 ， 比 如 MySQL 数 据 库 ， 在 大 数据 量 和 高 并 发 需求 压力 之 下 的 无 
隶 选 择 。 弱 一 致 性 给 应 用 带 来 了 很 多 有 矿 烦 ， 比 如 数据 不 一 致 时 需要 人 
工 订 正 数据 。 如 果 存 储 系统 既 能 够 满足 大 数据 量 和 高 并 发 的 需求 ， 又 
能 够 提供 强 一 致 性 ， 且 硬件 成 本 相差 不 大 ， 用 户 将 宫 不 犹豫 地 选择 
它 。 强 一 致 性 将 大 大 简化 数据 库 的 管理 ， 应 用 程序 也 会 因此 而 简化 。 
因此 ，OceanBase 选 择 文 持 强 一 致 性 和 跨行 路 表 事务 。 


OceanBase UpdateServer 为 主 备 高 可 用 架构 ， 修 改 操 作 流程 如 下 : 


1) 将 修改 操作 的 操作 日 志 (redo 日 志 ) 发 送 到 备 机 ; 


2) 将 修改 操作 的 操作 日 志 写 入 主机 硬 副 ; 
3) 将 操作 日 志 应 用 到 主机 的 内 存 表 中 ; 


4) 返回 客户 端 写 入 成 功 。 


OceanBase 要 来 将 操作 日 志 同 步 到 主 备 的 情况 下 才能 够 返回 客户 端 写 入 
成 功 ， 即 使 主机 出 现 故 障 ， 备 机 目 动 切换 为 主机 ， 也 能 够 保证 新 的 主 
机 拥有 以 前 所 有 的 修改 操作 ， 严 格 保证 数据 不 丢失 。 男 外 ， 为 了 提高 
可 用 性 ，OceanBase 还 增加 了 一 种 机 制 ， 如 采 主 机 往 备 机 同步 操作 日 志 
失败 ， 比 如 备 机 故障 或 者 主 备 之 间 网 络 故障 ， 主 机 可 以 将 备 机 从 同步 
列表 中 刚 除 ， 本 地 更 新 成 功 后 就 返 回 客户 端 写 入 成 功 。 主 机 将 备 机 押 
除 前 需要 通知 RootServer， 后 续 如 果 主 机 故障 ，RootServer 能 够 避免 将 
不 同步 的 备 机 切换 为 主机 。 


OceanBase 的 高 可 用 机 制 保证 主机 、 备 机 以 及 主 备 之 间 网 络 三 者 之 中 的 
任何 一 个 出 现 故 障 都 不 会 对 用 户 产 生 影响 ， 然 而 ， 如 果 三 者 之 中 的 两 
个 同时 出 现 故障 ， 系 统 可 用 性 将 受到 影响 ， 但 仍然 保证 数据 不 丢失 。 
如 采 应 用 对 可 用 性 要 求 特别 高 ， 可 以 增加 备 机 数量 ， 从 而 容忍 多 台 机 
器 同时 出 现 故 障 的 情况 。 


OceanBase 主 备 同 步 也 允许 配置 为 异步 模式 ， 文 持 最 终 一 致 性 。 这 种 模 
式 一 般 用 来 文 持 异 地 容 灾 。 例 如 ， 用 户 请 求 通过 杭州 主 站 的 机 房 提 供 
服务 ， 主 站 的 UpdateServer 内 部 有 一 个 同步 线程 不 停 地 将 用 户 更 新 操作 


发 送 到 青岛 机 房 。 如 琳 杭 州 机 房 整体 出 现 不 可 恢复 的 故障 ， 比 如 地 
震 ， 还 能 够 通过 青鸟 机 房 恢复 数据 并 继续 提供 服务 。 


另外 ，OceanBase 所 有 写 事 务 最 终 都 落 到 UpdateServer， 而 UpdateServer 
逻辑 上 是 一 个 单 点 ， 文 持 路 行 跨 表 事务 ， 实 现 上 借鉴 了 传统 天 系数 据 
库 的 做 法 。 


8.4.2 数据 结构 


OceanBase 数 据 分 为 基线 数据 和 增 量 数据 两 个 部 分 ， 基 线 数据 分 布 在 多 
人 台 ChunkServer 上 ， 增 量 数据 全 部 存放 在 一 台 UpdateServer 上 。 如 图 8-5 
所 示 ， 系 统 中 有 5 个 子 表 ， 每 个 子 表 有 3 个 副本 ， 所 有 的 子 表 分 布 到 4 台 
ChunkServer 上。RootServer 中 维护 了 每 个 子 表 所 在 的 ChunkServer 的 位 
置信 息 ，UpdateServer 存 储 了 这 5 个 子 表 的 增 量 更 狐 。 


不 考虑 数据 复制 ， 基 线 数据 的 数据 结构 如 下 : 
。 每 个 表格 按照 主键 组 成 一 笑 分 布 式 B+ 树 ， 主 健 由 大 干 列 组 成 ; 


e 每 个 时 子 节点 包含 表格 一 个 前 开 后 财 的 主键 范围 (rk1，rk2] 内 的 数 
据 ; 


数据 分 片 
(元 数据 ) 


Rootserver 


用 


ChunkServerl ChunkServer2 ChunkServer3 ChunkServer4 


加 .于 1 2 


图 8-5 OceanBase 数 据 结 构 
e 每 个 叶子 节点 称 为 一 个 子 表 (tabletj) ， 包 含 一 个 或 者 多 个 SSTable; 


e 每 个 SSTable 内 部 按 主键 范围 有 序 划 分 为 多 个 块 (block) 并 内 建 块 索 
引 (block index) : 


。 每 个 块 的 大 小 通常 在 4~64KB 之 间 并 内 建 块 内 的 行 索引 ; 
ee 数据 压缩 以 块 为 单位 ， 压 缩 算法 由 用 户 指 定 并 可 随时 变更 ; 


e 叶 了 于 方太 可 能 合并 或 者 分 农 ; 


e 所 有 叶子 广 点 基本 上 是 均匀 的 ， 随 机 地 分 布 在 多 台 ChunkServer 机 妖 
本 


e 通 党 情况 下 每 个 叶子 市 点 有 2~3 个 副本 ; 


ee 叶子 方 点 十 负载 平衡 和 任务 调度 的 基本 单元 ; 

e 文 持 布 隆 过 滤 名 的 过 滤 。 

增 量 数据 的 数据 结构 如 下 : 

e 增 量 数据 按照 时 间 从 旧 到 新 划分 为 多 个 版 本 ; 

e 最 新 版 本 的 数据 为 一 颗 内 存 中 的 B+ 树 ， 称 为 活跃 MemTable; 


e 用 户 的 修改 操作 写 入 活跃 MemTable， 到 达 一 定 大 小 后 ， 原 有 的 活跃 
MemTable 将 被 冻结 ， 并 开局 新 的 活跃 MemTable 接 受 修 改 操作 ; 


e 冻 结 的 MemTable 将 以 SSTable 的 形式 转 储 到 SSD 中 持久 化 ; 


。 每 个 SSTable 内 部 按 主键 范围 有 序 划 分 为 多 个 块 并 内 建 块 索引 ， 每 个 
块 的 大 小 通常 为 4~…8KB 并 内 建 块 内 行 索引 ，- 一 般 不 压缩 


eUpdateServer 支 持 主 备 ， 增 量 数据 通常 为 2 个 副本 ， 每 个 副本 支持 
RAID1 存 储 。 


8.4.3 可 对 性 与 可 用 性 


分 布 式 系统 需要 处 理 各 种 故障 ， 例 如 ， 软 件 故障 、 服 务 器 故障 、 网 络 
故障 、 数 据 中 心 故障 、 地 震 、 火 灾 等 。 与 其 他 分 布 式 存储 系统 一 样 ， 


OceanBase 通 过 元 余 的 方式 保障 了 高 可 靠 性 和 高 可 用 性 。 方 法 如 下 所 


示 : 
eOceanBase 在 ChunkServer 中 保存 了 基线 数据 的 多 个 副本 。 单 集群 部 署 


时 一 般 会 配置 3 个 副本 ; 主 备 集群 部 署 时 一 般 会 配置 每 个 集群 2 个 副 
本 ， 总 共 4 个 副本 。 


eOceanBase 在 UpdateServer 中 你 存 了 增 量 数据 的 多 个 副本 。 
UpdateServer 主 备 模式 下 主 备 两 台 机 郁 各 保存 一 个 副本 ， 另 外 ， 每 合 机 
器 都 通过 软件 的 方式 实现 了 RAID1， 将 数据 自动 复制 到 多 块 磁盘 ， 
一 步 增强 了 可 靠 性 。 


eChunkServer 的 多 个 副本 可 以 同时 提供 服务 。Bigtable 以 及 HBase 这 样 
的 系统 服务 节点 不 见 余 ， 如 果 服 务 器 出 现 故 障 ， 需 要 等 待 其 他 市 点 恢 
复 成 功 才能 提供 服务 ， 而 OceanBase 多 个 ChunkServer 的 子 表 副本 数据 完 
全 一 致 ， 可 以 同时 提供 服务 。 


eUpdateServer 主 备 之 间 为 热 备 ， 同 一 时 刻 只 有 一 人 台 机 怖 为 主 
UpdateServer 提 供 写 服务 。 如 果 主 UpdateServer 发 生 故 障 ，OceanBase 能 
够 在 几 秒 中 之 内 〈 一 般 为 3~5 秒 ) 检测 到 并 将 服务 切换 到 备 机 ， 备 机 


个 副本 并 没有 市 来 太 多 的 成 本 。 当 前 的 主流 服务 着 


eOceanBase 存 储 多 人 1 全 
的 磁盘 容量 通常 是 富余 的 ， 例 如 ，300GBx12 或 600GBx12 的 服务 器 有 


3TB 或 TB 左右 的 磁盘 总 容量 ， 但 存储 系统 单机 通常 只 能 服务 少 得 多 的 
数据 量 。 


8.4.4 读 写 事务 


在 OceanBase 系 统 中 ， 用 户 的 读 写 请 求 ， 即 读 写 事 务 ， 都 发 给 
MergeServer。MergeServer 解 析 这 些 读 写 事务 的 内 容 ， 例 如 词法 和 语法 
分 析 、schema 检 查 等 。 对 于 只 读 事 务 ， 由 MergeServer 发 给 相应 的 
ChunkServer 分 别 执行 后 再 合并 每 个 ChunkServer 的 执行 结果 对 于 读 写 
事务 ， 由 MergeServer 进 行 预 处 理 后 ， 发 送 给 UpdateServer 执 行 。 


只 读 事 务 执行 流程 如 下 : 


1) MergeServer 解 析 SQL 语 句 ， 词 法 分 析 、 语 法 分 析 、 预 处 理 (schema 
合法 性 检查 、 权 限 检 查 、 数 据 类 型 检查 等 ) ， 最 后 生成 逻辑 执行 计划 
和 物理 执行 计划 。 


2) 如 果 SQL 请 求 只 涉及 单 张 表 格 ，MergeServer 将 请 求 拆 分 后 同时 发 给 
多 台 ChunkServer 并 发 执行 ， 每 台 ChunkServer 将 读 取 的 部 分 结果 返回 
MergeServer， 由 MergeServer 来 执行 结果 合并 。 


3) 如 果 SQL 请 求 涉及 多 张 表 格 ，MergeServeri 还 需要 执行 联 表 、 舱 套 查 
询 等 操作 。 


4) MergeServer 将 最 终结 果 返 回 给 客户 端 。 


读 写 事务 执行 流程 如 下 : 


1) 与 只 读 事 务 相同 ，MergeServer 首 先 解析 SQL 请 求 ， 得 到 物理 执行 计 
el 


2) MergeServer 请 求 ChunkServer 获 取 需 要 读 取 的 基线 数据 ， 并 将 物理 
执行 计划 和 基线 数据 一 起 传 给 UpdateServer。 


3) UpdateServer 根 据 物 理 执行 计划 执行 读 写 事务 ， 执 行 过 程 中 需要 使 
用 MergeServer 传 入 的 基线 数据 。 


4) UpdateServer 返 回 MergeServer 操 作成 功 或 者 失败 ，MergeServer 接 着 
会 把 操作 结 采 返回 客户 端 。 


例如 ， 假 设 某 SQL 语 名 为 : “update tl set cl=c1+1 where rowkey=1”， 即 
将 表格 t1 中 主键 为 1 的 cl 列 加 1， 这 一 行 数据 存储 在 ChunkServer 中 ，c1 
列 的 值 原来 为 2012。 那 么 ，MergeServer 执 行 SQL 时 首先 从 ChunkServer 
读 取 主键 为 1 的 数据 行 的 cl 列 ， 接 着 将 读 取 结果 (cl1=2012) 以 及 SQL 语 
句 的 物理 执行 计划 一 起 发 送 给 UpdateServer。UpdateServer 根 据 物理 执 
行 计划 将 cl 加 1， 即 将 cl 变 为 2013 并 记录 到 内 存 表 (MemTable) 中 。 当 
然 ， 更 新 内 存 表 之 前 需要 记录 操作 日 志 。 


8.4.5 单 点 性 能 


OceanBase 架 构 的 优势 在 于 既 支 持 跨行 跨 表 事务 ， 又 支持 存储 服务 絮 线 
性 扩展 。 当 然 ， 这 个 架构 也 有 一 个 明显 的 缺陷 : UpdateServer 单 点 ， 这 
个 问题 限制 了 OceanBase 集 群 的 整体 读 写 性 能 。 


下 面 从 内 存 容量 、 网 络 、 人 磁盘 等 几 个 方面 分 析 UpdateServer 的 读 写 性 
能 。 其 实 大 部 分 数据 库 每 天 的 修改 次 数 相当 有 限 ， 只 有 少数 修改 比较 
频繁 的 数据 库 才 有 每 天 几 亿 次 的 修改 次 数 。 男 外 ， 数 据 库 平均 每 次 修 
改 涉 及 的 数据 量 很 少 ， 很 多 时 候 只 有 几 十 个 字 世 到 几 百 个 字 节 “。 假设 
数据 库 每 天 更 新 1 亿 次 ， 平 均 每 次 需要 消耗 100 字 他， 每 天 插入 1000 万 
次 ， 平 均 每 次 需要 消耗 1000 字 节 ， 那 么 ， 一 天 的 修改 量 为 : 1 亿 
x100+1000 万 x1000=20GB， 如 果 内 存 数据 结构 脱 胀 2 倍 ， 占 用 内 存 只 有 
40GB。 而 当前 主流 的 服务 器 都 可 以 配置 96GB 内 存 ， 一 些 高 档 的 服务 器 
甚至 可 以 配置 192GB、384GB 力 至 更 多 内 存 。 


从 上 面 的 分 析 可 以 看 出 ，UpdateServer 的 内 存 容 量 一 般 不 会 成 为 瓶颈 。 
然而 ， 服 务 句 的 内 存 毕 竟 有 限 ， 实 际 应 用 中 仍然 可 能 出 现 修 改 量 超出 
内 存 的 情况 。 例 如 ， 淘 宝 双 11 网 购 节 数据 库 修 改 量 骏 涨 ， 某 些 特殊 应 
用 每 天 的 修改 次 数 特 别 多 或 者 每 次 修改 的 数据 量 特别 大 ，DBA 数 据 订 
正 时 一 次 性 写 入 大 量 数据 。 为 此 ，UpdateServer 设 计 实 现 了 几 种 方式 解 
决 内 存 容量 问题 ，UpdateServer 的 内 存 表达 到 一 定 大 小 时 ， 可 目 动 或 者 
手工 冻结 并 转 储 到 SSD 中 ， 另 外 ，OceanBase 文 持 通过 定期 合并 或 者 数 
据 分 发 的 方式 将 UpdateServer 的 数据 分 散 到 集群 中 所 有 的 ChunkServer 机 


右 中 ， 这 样 不 仅 避 免 了 UpdateServer 单 机 数据 容量 问题 ， 还 能 够 使 得 该 
取 操 作 往 往 只 需要 访问 UpdateServer 内 存 中 的 数据 ， 避 免 访问 SSD 磁 
盘 ， 提 高 了 读 取 性 能 。 


从 网 络 角度 看 ， 假 设 每 秒 的 读 取 次 数 为 20 万 次 ， 每 次 需要 从 
UpdateServer 中 获取 100 字 方 ， 那 么 ， 读 取 操 作 占 用 的 UpdateServer 出 口 
市 视 为 : 20 万 x100=20MB， 远 远 没 有 达到 千 兆 网 卡 市 宽 上 限 。 另 外 ， 
UpdateServer 还 可 以 配置 多 块 干 兆 网 卡 或 者 万 兆 网 卡 ， 例 如 ， 
OceanBase 线 上 集群 一 般 给 UpdateServer 配 置 4 块 千 兆 网 卡 。 当 然 ， 如 果 
软件 层面 没有 做 好 ， 硬 件 特性 将 得 不 到 充分 发 挥 。 针 对 UpdateServer 全 
内 存 、 收 发 的 网 络 包 一 般 比 较 小 的 特点 ， 开 发 团队 对 UpdateServer 的 网 
络 框 染 做 了 专门 的 优化 ， 大 大 提高 了 每 秒 收发 网 络 包 的 个 数 ， 使 得 网 
络 不 会 成 为 瓶颈 。 


从 磁 副 的 角度 看 ， 数 据 库 事务 需要 首先 将 操作 日 志 写 入 人 磁盘。 如 果 每 
次 写 入 都 需 要 将 数据 刷 入 磁 副 ， 而 一 块 SAS 人 磁盘 每 秒 支 持 的 IOPS 很 难 
超过 300， 伍 盘 将 很 快 成 为 瓶颈 。 为 了 解决 这 个 问题 ，UpdateServer 在 
硬件 上 会 配置 一 块 市 有 缓存 模块 的 RAID 卡 ，UpdateServer 写 操作 日 志 
只 需要 写 入 到 RAID 卡 的 缓存 模块 即 可 ， 延 时 可 以 控制 在 1 之 秒 之 内 。 
RAID 卡 带电 池 ， 如 果 UpdateServer 发 生 故 障 ， 比 如 机 器 突然 停电 ， 
RAID 卡 能 够 确保 将 缓存 中 的 数据 刷 入 磁 列 ， 不 会 出 现 丢 数据 的 情况 。 


另外 ，UpdateServer 还 实现 了 写 事 务 的 成 组 提交 机 制 ， 将 多 个 用 户 写 操 
作 疙 成 一 批 一 次 性 所 区 ， 进 一 步 减 少 磁 盘 IO 次 数 。 


8.4.6 SSD 支 持 


磁盘 随机 IO 是 存储 系统 性 能 的 决定 因素 ， 传 统 的 SAS 盘 能 够 提供 的 

IOPS 不 超过 300。 关 系数 据 库 一 般 采 用 高 速 缓存 (Buffer Cache) [1] 的 
方式 缓解 这 个 问题 ， 读 取 操 作 将 磁盘 中 的 页 面 缓存 到 高 速 缓存 中 ， 并 
通过 LRU 或 者 类 似 的 方式 淘汰 不 经 常 访问 的 页 面 ， 同样 ， 写 入 操作 也 
是 将 数据 写 入 到 高 速 缓存 中 ， 由 高 速 缓存 按照 一 定 的 策略 将 内 存 中 页 
面 的 内 容 刷 入 磁盘 。 这 种 方式 面临 一 些 问题 ， 例 如 ，Cache 冷 启动 问 
题 ， 即 数据 库 刚 启动 时 性 能 很 差 ， 需要 将 读 取 流量 逐步 切入 。 男 外 ， 
这 种 方式 不 适合 写 入 特别 多 的 场景 。 


最 近 几 年 ，SSD 磁 盘 取 得 了 很 大 的 进展 ， 它 不 仅 提供 了 非常 好 的 随机 读 
取 性 能 ， 功 耗 也 非常 低 ， 大 有 取代 传统 机 械 磁 盘 之 势 。 一 块 普通 的 SSD 
位 副 可 以 提供 35000 IOPS 甚 至 更 高 ， 并 提供 300MB/s 或 以 上 的 读 出 市 

宽 。 然 而 ，SSD 盘 的 随机 写 性 能 并 不 理想 。 这 是 因为 ， 尽 管 SSD 的 读 和 
写 以 页 (page， 例 如 4KB，8KB 等 ) 为 单位 ， 但 SSD 写 入 前 需要 首先 擦 
除 已 有 内 容 ， 而 擦 除 以 块 (block) 为 单位 ， 一 个 块 由 若干 个 连续 的 页 
组 成 ， 大 小 通常 在 512KB~2MB。 假 如 写 入 的 页 有 内 容 ， 即 使 只 写 入 

一 个 字 节 ，SSD 也 需要 擦 除 整 个 512KB~2MB 大 小 的 块 ， 然 后 再 写 入 整 


个 页 的 内 容 ， 这 吏 是 SSD 的 写 入 放大 效应 。 虽 然 SSD 人 硬件 厂商 都 针对 这 
个 问题 做 了 一 些 优化 ， 但 整体 上 看 ， 随 机 写 入 不 能 发 挥 SSD 的 优势 。 


OceanBase 设 计 之 初 就 认为 SSD 为 大 势 所 趋 ， 整 个 系统 设计 时 完全 气 弃 
了 随机 写 ， 除 了 操作 日 志 总 是 顺序 追加 写 入 到 普通 SAS 盘 上 ， 和 狮 下 的 写 
请 求 都 是 对 响应 时 间 要 求 不 是 很 高 的 批量 顺序 写 ，SSD 盘 可 以 轻松 应 
对 ， 而 大 量 查 询 请 求 的 随机 读 ， 则 发 挥 了 SSD 良 好 的 随机 读 的 特性 。 气 
弃 随 机 写 ， 采 用 批量 的 顺序 写 ， 也 使 得 固态 盘 的 使 用 寿命 不 再 成 为 问 
题 ， 主 流 SSD 盘 使 用 MLC SSD 改 片 ， 而 MLC 号 称 可 以 擦 写 1 万 次 (SLC 
可 以 擦 写 10 万 次 ,但 因 成 本 高 而 较 少 使 用 ) ， 即 使 按 最 保守 的 2500 次 
探 写 次 数 计算 ， 而 且 每 天 全 部 擦 写 一 裔 ， 其 使 用 寿命 为 2500/365=6.8 
年 o 


[1] 这 个 机 制 在 Oracle 数 据 库 中 称 为 Buffer Cache， 在 MySQL 数 据 库 中 称 
为 Buffer Pool， 用 于 缓存 磁 盘 中 的 页 面 。 


8.4.7 数据 正确 性 


数据 丢失 或 者 数据 错误 对 于 存储 系统 来 说 古 一 种 灾难 。 前 面 8.4.1 广 中 
已 经 提 到 ，OceanBase 设 计 为 强 一 致 性 系统 ， 设 计 方案 上 保证 不 丢 数 
据 。 然 而 ，TCP 协 议 传输 、 磁 盘 读 写 都 可 能 出 现 数据 错误 ， 程 序 Bug 则 
更 为 音 见 。 为 了 防止 各 种 因素 导致 的 数据 损 驱 ，OceanBase 采 取 了 以 下 
数据 校 验 措施 : 


e 数 据 存储 校 验 。 每 个 存储 记录 〈 通 常 是 几 KB 到 几 十 KB) 同时 保存 64 
位 CRC 校 验 码 ， 数 据 被 访问 时 ， 重 新 计算 和 比 对 校 验 码 。 


ee 数据 传 输 校 验 。 每 个 传输 记 孙 同时 传输 64 位 CRC 校 验 码 ， 数 据 被 搂 收 
后 ， 重 新 计算 和 比 对 校 验 码 。 


e 数 据 镜 像 校 验 。UpdateServer 在 机 群 内 有 主 UpdateServer 和 备 
UpdateServer， 集 群 间 有 主 集群 和 备 集群 ， 这 些 UpdateServer 的 内 存 表 

(MemTable) 必须 保持 一 致 。 为 此 ，UpdateServer 为 MemTable 生 成 一 
个 校 验 码 ，MemTable 每 次 更 新 时 ， 校 验 码 同步 更 新 并 记录 在 对 应 的 操 
作 日 志 中 。 备 UpdateServer 收 到 操作 日 志 并 重 放 到 MemTable 时 ， 也 同步 
更 新 MemTable 校 验 码 并 与 接收 到 的 校 验 码 对 照 。UpdateServer 重 新 启动 
后 重 放 日 志 恢 复 MemTable 时 也 同步 更 刹 MemTable 校 验 码 并 与 保存 在 每 
条 操作 日 志 中 的 校 验 码 对 照 。 


e 数 据 副 本 校 验 。 定 期 合并 时 ， 新 的 子 表 由 各 个 ChunkServer 独 立地 融合 
旧 的 子 表 中 的 SSTable 与 冻结 的 MemTable 而 生成 ， 如 果 发 生 任何 异常 或 
者 错误 (比如 程序 bug) ， 同 一 子 表 的 多 个 副本 可 能 不 一 致 ， 则 这 种 不 
一 致 可 能 随 着 定期 合并 而 逐步 累积 或 扩散 且 很 难 被 发 现 ， 即 使 被 察 
觉 ， 也 可 能 因为 需要 追溯 较 长 时 间 而 难以 定位 到 源头 。 为 了 防止 这 种 
情况 出 现 ，ChunkServer 在 定期 合并 生成 新 的 子 表 时 ， 也 同时 为 每 个 子 
表 生 成 一 个 校 验 码 ， 并 随 新 子 表 汇 报 给 RootServer， 以 便 RootServer 核 
对 同一 子 表 不 同 副 本 的 校 验 人 码 。 


OceanBase 对 外 提供 的 是 与 天 系数 据 库 一 样 的 SQL 操作 接口 ， 而 内 部 却 
实现 成 一 个 线性 可 扩展 的 分 布 式 系统 。 系 统 从 逻辑 实现 上 可 以 分 为 两 
个 层次 : 分 布 式 存储 引擎 层 以 及 数据 库 功 能 层 。 


OceanBase 一 期 只 实现 了 分 布 式 存 储 引 警 ， 这 个 存储 引擎 文 持 如 下 特 
性 : 


e 文 持 分 布 式 数据 结构 ， 基 线 数据 逻辑 上 构成 一 颗 分 布 式 B+ 树 ， 增 量 数 
据 为 内 存 中 的 B+ 树 ; 


e 文 持 目 前 OceanBase 的 所 有 分 布 式 特性 ， 包 括 数 据 分 布 、 人 负载 均衡 、 
主 备 同 步 、 容 错 、 目 动 增加 /减少 服务 絮 等 ; 


e 文 持 根据 主键 更 新 、 插 入 、 删 除 、 随 机 读 取 一 条 记录 ， 另 外 ， 文 持 根 
据 主 键 范围 顺序 查找 一 段 范围 的 记录 。 


二 期 的 OceanBase 版 本 在 分 布 式 存储 引擎 之 上 增加 了 SQL 文 持 : 
e 支 持 SQL 语 言 以 及 MySQL 协 议 ，MySQL 客 户 端 可 以 直接 访问 ; 
e 文 持 读 写 事务 ; 


e 文 持 多 版 本 并 发 控制 ; 


e 文 持 读 事 务 并 发 执行 。 


从 另外 一 个 角度 看 ，OceanBase 融 合 了 分 布 式 存储 系统 和 关系 数据 库 这 
两 种 技术 。 通 过 分 布 式 存储 技术 将 基线 数据 分 布 到 多 台 ChunkServer， 
实现 数据 复制 、 负 载 均衡 、 服 务 器 故障 检测 与 目 动容 错 ， 等 等 ; 
UpdateServer 相 当 于 一 个 高 性 能 的 内 存 数据 库 ， 底 层 采 用 关系 数据 库 技 
术 实 现 。 我 们 后 来 发 现 ， 有 一 个 号 称 “ 世 界 上 最 快 的 内 存 数据 

库 ”MemSQL 采 用 了 和 OceanBase UpdateServer 类 似 的 设计 ， 在 拥有 64 个 
CPU 核心 的 服务 器 上 实现 了 每 秒 150 万 次 单行 写 事务 。OceanBase 相 当 
于 GFS+MemSQL,ChunkServer 的 实现 类 似 GFS,UpdateServer 的 实现 类 似 
MemSQL， 目 标 是 成 为 可 扩展 的 、 文 持 每 秒 百 万 级 单行 事务 操作 的 分 
布 式 数据 库 。 


后 续 将 分 为 两 章 ， 分 别 讲述 OceanBase 分 布 式 存储 引 警 层 以 及 数据 库 功 
能 层 的 实现 细 记 。 


第 9 章 分 布 式 存 储 引擎 


分 布 式 存储 引擎 层 负责 处 理 分 布 式 系统 中 的 各 种 问题 ， 例 如 数据 分 
布 、 负 载 均衡 、 容 错 、 一 致 性 协议 等 。 与 其 他 分 布 式 存储 系统 类 似 ， 
分 布 式 存储 引擎 层 文 持 根 据 主 键 更 新 、 插 入 、 删 除 、 随 机 读 取 以 及 苑 
围 查找 等 操作 ， 数 据 库 功能 层 构建 在 分 布 式 存储 引擎 层 之 上 。 


分 布 式 存储 引擎 层 包 售 三 个 模块 : RootServer、UpdateServer 以 及 
ChunkServer。 其 中 ，RootServer 用 于 整体 控制 ， 实 现 子 表 分 布 、 副 本 复 
制 、 负 载 均 衡 、 机 器 管理 以 及 Schema 管理 ，UpdateServer 用 于 存储 增 量 
数据 ， 数 据 结构 为 一 个 内 存 B 树 ， 并 通过 主 备 实时 同步 实现 高 可 用 ， 导 
外 ，UpdateServer 的 网 络 框 架 也 经 过 专门 的 优化 ChunkServer 用 于 存储 
基线 数据 ， 基 线 数据 按照 主键 有 序 划 分 为 一 个 个 子 表 ， 每 个 子 表 在 
ChunkServer 上 存储 了 一 个 或 者 多 个 SSTable， 另 外 ， 定 期 合并 和 数据 分 
发 的 主要 逻辑 也 由 ChunkServer 实 现 。 


OceanBase 包 含 一 个 公共 模块 ， 包含 其 他 模块 共用 的 网 络 框 架 、 内 存 
池 、 任务 队列 、 锁 、 基 础 数据 结构 等 ， 本 章 将 介绍 分 布 式 存储 引擎 以 
及 公共 模块 的 实现 。 


9.1 公共 模块 


OceanBase 源 代码 中 有 一 个 公共 模块 ， 包 含 其 他 模块 需要 的 公共 类 ， 例 
如 公共 数据 结构 、 内 存 管 理 、 锁 、 任 务 队 列 、RPC 框 架 、 上 压缩 /解压 缩 
等 。 下 面 介绍 其 中 部 分 类 的 设计 思路 。 


9.1.1 内 存 管 理 


内 存 管 理 是 C++ 高 性 能 服务 器 的 核心 问题 。 一 些 通用 的 内 存 管理 库 ， 比 
如 Google TCMalloc， 在 内 存 申 请 /释放 速度 、 小 内 存 管理 、 锁 开销 等 方 
面 都 已 经 做 得 相当 卓越 了 ， 然 而 ， 我 们 并 没有 采用 。 这 是 因为 ， 通 用 

内 存 管 理 库 在 性 能 上 毕竟 不 如 专用 的 内 存 池 ， 更 为 严重 的 问题 是 ， 它 

教 励 了 开发 人 员 忽 视 内 存 管理 的 陋习 ， 比 如 在 服务 器 程序 中 滥用 C++ 标 
准 模板 库 (STL) 。 


在 分 布 式 存 储 系统 开发 初期 ， 内 存 相 关 的 Bug 相 当 利 见 ， 比 如 内 存 越 
界 、 服 务 器 出 现 Core Dump， 这 些 Bug 都 非常 难以 调试 。 因 此 ， 这 个 时 
期 内 存 管理 的 首要 问题 并 不 是 高 效 ， 而 是 可 探 性 ， 并 防止 内 存 碎 片 。 


OceanBase 系 统 有 一 个 全 局 的 定 长 内 存 池 ， 这 个 内 存 池 维护 了 由 64KB 
大 小 的 定 长 内 存 块 组 成 的 空 内 链表 ， 其 工作 原理 如 下 : 


e 如 果 申 请 的 内 存 不 超过 64KB， 演 试 从 空闲 链表 中 获取 一 个 64KB 的 内 
存 块 返回 给 申请 者 ;如 采 空 链表 为 空 ， 需 要 首先 从 操作 系统 中 申请 
一 批 大 小 为 64KB 的 内 存 块 加 入 空 网 链表。 释放 时 将 64KB 的 内 存 块 加 入 
到 空 内 链表 中 以 便 下 次 重用 。 


e 如 果 申 请 的 内 存 超过 64KB， 直 接 调 用 Glibc 的 内 存 分 配 (malloc) 画 
数 ， 向 操作 系统 申请 用 户 所 需 大 小 的 内 存 块 。 释 放 时 直接 调用 Glibe 的 
内 存 释 放 (free) 画 数 ， 将 内 存 块 归 还 操作 系统 。 


OceanBase 的 全 局 内 存 池 实现 商 单 ， 但 内 存 使 用 率 比 较 低 ， 即 使 申请 几 
个 字 闻 的 内 存 ， 也 需要 占用 大 小 为 64KB 的 内 存 块 。 因 此 ， 全 局 内 存 池 
不 适合 管理 小 块 内 存 ， 每 个 需要 申请 内 存 的 模块 ， 比 如 UpdateServer 中 
的 MemTable,ChunkServer 中 的 缓存 等 ， 都 只 能 从 全 局 内 存 池 中 申请 大 块 
内 存 ， 每 个 模块 内 部 再 实现 专用 的 内 存 池 “。 每 个 线程 处 理 读 写 请 求 时 
需要 使 用 临时 内 存 ， 为 了 提高 效率 ， 每 个 线程 会 缓存 若干 个 大 小 分 别 
为 64KB 和 2MB 的 内 存 块 ， 每 个 线程 总 是 首先 演 试 从 线程 局 部 缓存 中 申 
请 内 存 ， 如 末 申 请 不 到 ， 再 从 全 局 内 存 池 中 申请 。 


class OblAllocator 


{ 


public: 


/内 存 申 请 接口 


Virtual void*alloc(const int64_t sz)=0; 


/内 存 释 放 接 口 


virtual void free(void*ptr)=0; 


}; 


class ObMalloc:public ObIAllocator 


public: 


/设置 模块 号 


void set mod_id(int32 tmod_ id); 


/申请 大 小 为 sz 的 内 存 块 


void*alloc(const int64_t sz); 


/释放 内 存 


void free(void*ptr); 


class ObTCMalloc:public ObIAjlocator 


public: 

/设置 模块 号 

void set mod_id(int32 tmod_ id); 
/申请 大 小 为 sz 的 内 存 块 
void*alloc(const int64_t sz); 
/释放 内 存 

void free(void*ptr); 

} 


ObIAllocator 是 内 存 管理 絮 的 接口 ， 包 翁 alloc 和 free 两 个 方法 。ObMalloc 
和 ObTCMalloc 是 两 个 实现 了 ObIAllocator 接 口 的 全 局 内 存 池 ， 不 同 点 在 
于 ，ObMalloc 不 文 持 线程 缓存 ，ObTCMalloc 文 持 线 程 缓存 。 
ObTCMalloc 首 先 尝试 从 线程 局 部 的 空 几 链表 申请 内 存 块 ， 如 果 申 请 不 
到 ， 再 通过 ObMalloc 的 alloc 方 法 申请 。 释 放 内 存 时 ， 如 果 没 有 超出 线 
程 缓存 的 内 存 块 个 数 限制 ， 则 将 内 存 块 还 给 线程 局 部 的 空闲 链表 ; 否 
则 ， 通 过 ObMalloc 的 free 方 法 释放 。 另 外 ， 人 允许 通过 set_mod_id 函 数 设 
置 申 请 者 所 在 的 模块 编号 ， 便 于 统计 每 个 模块 的 内 存 使 用 情况 。 


全 局 内 存 池 的 意义 如 下 : 


e 全 局 内 存 池 可 以 统计 每 个 模块 的 内 存 使 用 情况 ， 如 采 出 现 内 存 泄露 ， 
可 以 很 快 定 位 到 发 生 问题 的 模块 。 


e 全 局 内 存 池 可 用 于 辅助 调试 。 例 如 ， 可 以 将 全 局 内 存 池 中 申请 到 的 内 
存 块 按 字 节 填 充 为 某 个 非法 的 值 (比如 0xFE) ， 当 出 现 内 存 越界 等 问 
题 时 ， 服 务 器 程序 会 很 快 在 出 现 问题 的 位 置 Core Dump ， 而 不 是 带 着 错 
误 运 行 一 段 时间 后 才 Core Dump， 从 而 方便 问题 定位 。 


总 而 言 之 ，OceanBase 的 内 存 管理 没有 采用 高 深 的 技术 ， 也 没有 做 到 通 
用 或 者 最 优 ， 但 是 很 好 地 满足 了 服务 器 程序 开发 的 两 个 最 主要 的 需 
求 : 可 探 性 以 及 没有 内 存 碎 片 。 


9.1.2 基础 数据 结构 
1. 哈 希 表 


为 了 提高 随机 读 取 性 能 ，UpdateServer 支 持 创建 哈 希 索引 ， 这 个 哈 希 索 
引 结 构 就 是 LightyHashMap， 代 码 如 下 : 


template < typename Key,typename Value > 
class LightyHashMap 
{ 


public: 


/插入 一 个 <keyvalue> 对 到 哈 希 表 
inline int insert(const Key& key,const Value Svalue); 
// 根 据 key 查 找 value 


inline int get(const Key& key,Value & value); 


/根据 key 删 除 一 个 <keyvalue> 对， 如 采 value 不 为 空 ， 那 么 ， 保 存 删 
除 的 值 到 value 中 


inline int erase(const Key& key, Value*value=NULL): 
private: 


struct Node 


Key key; 


Value value; 


union 


Node*next;: 


int64_t flag; 

}; 

上 

Node*buckets_;// 哈 希 桶 指针 

BitLock bit_lock_;// 位 锁 ， 用 于 保护 哈 希 桶 
上 


LightyHashMap 采 用 链 式 冲突 处 理 方法 ， 即 将 所 有 哈 希 值 相同 的 < 
key,value > 对 链 到 同一 个 哈 希 桶 中 ， 它 包含 如 下 三 个 方法 : 


einsert: 往 哈 希 表 中 插入 一 个 <key,value> 对 。 这 个 函数 首先 根据 key 
的 哈 希 值得 到 桶 号 ， 接 着 ， 往 哈 希 桶 中 插入 一 个 包含 key 和 value 值 的 


Node 闻 点 。 


eget: 根据 key 碍 找 value。 这 个 函数 首先 根据 key 的 哈 希 值得 到 桶 号 ， 接 
着 ， 裔 历 对 应 的 链表 ， 找 到 与 传 入 key 相 同 的 Node 节 点 ， 返 回 其 中 的 
value 值 。 


eerase: 根据 key 删 除 一 个 <keyvalue> 对 。 这 个 函数 首先 根据 key 的 哈 
希 值得 到 桶 号 ， 接 着 ， 遍 历 对 应 的 链表 ， 找 到 并 删除 与 传 入 key 相 同 的 
Node 站 点。 


LightyHashMap 设 计 用 来 存储 几 和 于 万 甚至 几 亿 个 元 素 ， 它 与 普通 哈 希 表 
的 不 同 点 在 于 以 下 两 点 ; 


1) 位 锁 (BitLock) : LightyHashMap 通 过 BitLock 实 现 哈 希 桶 的 锁 结 

构 ， 每 个 哈 希 桶 的 锁 结构 只 需要 占用 一 个 位 (Bit) 。 如 果 哈 希 桶 对 应 
的 位 锁 值 为 0， 表 示 没 有 锁 冲 突 ; 和 否则， 表示 出 现 锁 神 突 。 需 要 注意 的 
是 ，LightyHashMap 没 有 区 分 读 锁 和 写 锁 ， 多 个 get 请 求 也 是 冲突 的 。 可 
以 对 LightyHashMap 的 BitLock 做 一 些 改 进 ， 例 如 用 两 个 位 (Bit) 表示 
哈 希 桶 对 应 的 锁 ， 其 中 一 个 位 表示 是 否 有 读 冲 突 ， 男 外 一 个 位 表示 是 

否 有 写 冲 突 。 


2) 延迟 初始 化 (Lazy Initialization) : LightyHashMap 的 哈 希 桶 个 数 往 
往 特别 多 〈 默 认为 1000 万 个 ) ， 即 使 仅仅 对 所 有 哈 希 桶 执行 一 次 
memset 操 作 ， 消 耗 的 时 间 也 是 相当 可 观 的。 因此 ，LightyHashMap 采 用 
延迟 初始 化 策略 ， 即 将 哈 希 桶 划分 为 多 个 单元 ， 默 认 情 况 下 每 个 单元 
包含 65536 个 哈 希 桶 。 每 次 执行 insert 、get 或 者 erase 操 作 时 都 会 判断 哈 
希 桶 所 属 的 单元 是 否 已 经 初始 化 ， 如 果 未 初始 化 ， 则 对 该 单元 内 的 所 
有 哈 希 桶 执行 初始 化 操作 。 


2.B 树 


UpdateServer 的 MemTable 结 构 撒 层 采用 B 树 结构 索引 其 中 的 数据 行 ， 代 
码 如 下 : 


template < class K,class V,class Alloc > 


class BTreeBase 


public: 


// 把 <key,value> 对 加 到 B 树 中 ，overwrite 参 数 表示 是 否 履 盖 原 有 值 


int put(const K & key,const V Svalue,const bool overwrite=false); 
// 获 取 key 对 应 的 value 

int get(const K& key,V Svalue); 

/获取 扫 搞 操作 摘 述 符 

int get_scan_handle(TScanHandle &handle); 
/设置 扫描 的 数据 范围 


int set_key_range(TScanHandle handle,const KEstart_key,int32 ft 


start_exclude,const K&end_key,int32_t end_exclude); 
// 读 取 下 一 行 数据 


int get_next(TScanHandle &handle,K & key,V & value); 


}; 

支持 的 功能 如 下 : 

1) Put: 插入 一 个 <key,value> 对 。 
2) Get: 根据 key 获 取 对 应 的 value 。 


3) Scan: 扫描 一 段 范 围 内 的 数据 行 。 首 先 ， 调 用 get_scan_handle 获 取 
扫描 操作 描述 符 ， 其 次 ， 调 用 set_key_range 设 置 扫 描 的 数据 范围 ， 最 
后 ， 不 断 地 调用 get_next 读 取 下 一 行 数据 直到 全 部 读 完 。 


B 树 支持 多 线程 并 发 修改 。 如 图 9-1 所 示 ， 往 MemTable 插 入 数据 行 
(Data) 时 ， 将 修改 其 B 树 索引 结构 (Index) ， 分 为 两 种 情况 : 


e 两 个 线程 分 别 插入 Datal 和 Data2: 由 于 Data1 和 Data2 属 于 不 同 的 索引 
节点 ， 揪 入 Datal 和 Data2 将 影响 B 树 的 不 同 部 分 ， 两 个 线程 可 以 并 发 执 
行 ， 不 会 产生 冲突 。 


e 两 个 线程 分 别 插入 Data2 和 Data3: 由 于 Data2 和 Data3 属 于 相同 的 索引 
节点 ， 因 此 ， 插 入 操作 将 产生 冲突 。 其 中 一 个 线程 会 执行 成 功 ， 男 外 
一 个 线程 失败 后 将 重 试 。 


图 9-1 并 发 修改 B 树 


每 个 索引 节点 满 了 以 后 将 分 裂 为 两 个 节点 ， 并 触发 对 该 索引 节点 的 父 
亲 节 点 的 修改 操作 。 分 裂 操作 将 增加 插入 线程 冲突 的 概率 ， 在 图 9-1 
中 ， 如 果 Datal 和 Data2 的 父亲 书 点 都 需要 分 裂 ， 那 么 ， 两 个 插入 线程 都 
需要 修改 Datal 和 Data2 的 祖父 节点 ， 从 而 产生 冲突 。 


另外 ， 为 了 提高 读 写 并 发 能 力 ，B 树 实现 时 采用 了 写 时 复制 (Copy-on- 
write) 技术 ， 修 改 每 个 索引 市 点 时 首先 将 该 节点 拷贝 出 来 ， 接 着 在 拷 
贝 出 来 的 节点 上 执行 修改 操作 ， 最 后 再 原子 地 修改 其 父亲 节点 的 指针 
使 其 指向 拷贝 出 来 的 节点 。 这 种 实现 方式 的 好 处 在 于 修改 操作 不 影响 
读 取 ， 读 取 操 作 永 远 不 会 被 阻 蹇 。 


细心 的 读者 可 能 会 发 现 ， 这 里 的 B 树 不 支持 更 新 【Update) 以 及 删除 操 
作 ， 这 是 由 OceanBase MVCC 存 储 引 擎 的 实现 机 制 决定 的 。 对 于 更 新 操 


作 ，MVCC 存 储 引 擎 会 在 行 的 末尾 退 加 一 个 单元 记录 更 新 的 内 容 ， 而 

` 会 影响 索引 结构 ;对 于 删除 操作 ，MVCC 存 储 引 擎 内 部 实现 为 标记 
删除 ， 即 在 行 的 末尾 追加 一 个 单元 记录 行 的 删除 时 间 ， 而 不 会 物理 删 
除 菏 行 数据 。 


9.1.3 锁 


为 了 实现 并 发 控制 ，OceanBase 需 要 对 一 行 记录 加 共享 锁 或 者 互 不 锁 。 
为 此 ， 专 门 实现 了 QLock， 代 码 如 下 : 


struct QLock 


{ 


enum State 


EXCLUSIVE_BIT=1UL < < 31, 
UID_ MASK=~EXCLUSIVE_BIT 


上 


volatile uint32_t n_ref_;// 表 示 持 有 共享 锁 的 引用 计数 


volatile uint32_t uid_;// 表 示 持 有 互 不 锁 的 用 户 编号 


/加 共享 锁 ，uid 为 用 户 编号 ，end_time 为 超时 时 间 

int Shared_lock(const uint32_tuid,const int64 tend_time=-1); 
/解除 共享 锁 

int shared_unlock(); 

/加 互 斥 锁 ，uid 为 用 户 编号 ，end_time 为 超时 时 间 

int exclusive_lock(const uint32_t uid,const int64 tend_time=-1); 
/解除 互 斤 锁 

int exclusive_unlock(const uint32_tuid); 

/共享 锁 升 级 为 互 斥 锁 ，uid 为 用 户 编号 ，end_time 为 超时 时 间 
int share2exclusive_lock(const uint32_t uid,const int64_t end_time=-1); 
/ 互 斥 锁 降 级 为 共享 锁 

int exclusive2shared_lock(const uint32_t uid); 

起 


在 QLock 的 实现 中 ， 每 把 锁 占 用 8 个 字 季 ， 其 中 4 个 字 节 为 n_ref ， 表 示 
持 有 共有 至 合 的 引用 计数 ， 男 外 4 个 子 市 为 uid_， 表 示 持 有 互 不 锁 的 用 户 


编号 〈 例 如 线程 编号 ) 。uid_ 的 最 高 位 (EXCLUSIVE_BIT) 表示 是 否 
为 互 斥 锁 ， 其 余 31 位 表示 用 户 编 号 。 


share_lock 用 于 加 共享 锁 ， 实 现时 只 需要 将 n_ref 原子 加 1; 
exclusive_lock 用 于 加 互 斤 锁 ， 实 现时 需要 将 EXCLUSIVE_BIT 置 1 并 等 
待 持 有 共享 锁 的 所 有 用 户 解锁 完成 。 另 外 ， 为 了 避免 新 用 户 不 断 产 生 
并 持 有 共享 锁 导 致 无 法 获取 互 斥 锁 的 情况 ，exclusive_lock 实 现 步骤 如 
下: 


1) 将 EXCLUSIVE_BIT 置 为 1 


2) 等 待 持 有 共享 锁 的 所 有 用 户 解 锁 完 成 ; 


3) 如 果 第 2) 步 无 法 在 超时 时 间 内 完成 ， 加 锁 失 败 ， 将 
EXCLUSIVE_BIT 重 新 置 为 0。 


第 1) 步 执行 完成 后 ， 新 产生 的 用 户 无 法 获取 共享 锁 。 这 样 ， 只 需要 等 
竺 已 经 持 有 共享 锁 的 用 户 解锁 即 可 ， 不 会 出 现 获取 互 斥 锁 时 “ 俄 死 ”的 
现象 。 

share2exclusive_lock 将 共享 锁 升 级 为 互 不 锁 ， 实 现时 首先 升级 为 互 不 

锁 ， 如 果 获 取 成 功 ， 接 着 再 解除 共享 锁 ， 即 引用 计数 减 1。 


9.1.4 任务 队列 


在 生产 者/ 消费 者 模型 中 ， 往 往 有 一 个 任务 队列 ， 生 产 者 将 任务 加 入 到 
任务 队列 ,消费 者 从 任务 队列 中 取出 任务 进行 处 理 。 例 如 ， 在 网 络 框 
架 中 ， 网 络 线程 接收 任务 并 加 入 到 任务 队列 ， 工 作 线程 不 断 地 从 任务 
队列 取出 任务 进行 处 理 。 


最 为 前 见 的 场景 是 系统 有 一 个 全 局 任务 队列 ， 所 有 网 络 线程 和 工作 线 
程 操作 全 局 任务 队列 都 需要 首先 获取 独占 锁 ， 这 种 方式 的 锁 冲 突 严 

重 ， 将 导致 大 量 操作 系统 上 下 文 切换 (context switch) 。 为 了 解决 这 个 
问题 ， 可 以 给 每 个 工作 线程 分 配 一 个 任务 队列 ， 网 络 线程 按照 一 定 的 
沫 略 选 择 一 个 任务 队列 并 加 入 任务 ， 例 如 随机 选择 或 者 选择 已 有 任务 
个 数 最 少 的 任务 队列 。 


将 任务 加 入 到 任务 队列 (随机 选择 ) : 

1) 将 total_task_num 原 子 加 1 (total_task_num 为 全 局 任务 计数 值 ) ; 
2) 通过 total_task_num9% 工 作 线 程 数 ， 计 算出 任务 所 属 的 工作 线程 ; 
3) 将 任务 加 入 到 该 工作 线程 对 应 的 任务 队列 中 ; 

4) 唤醒 工作 线程 。 


然而 ， 如 果 某 个 任务 的 处 理 时 间 很 长 ， 束 有 可 能 出 现任 务 不 均衡 的 情 
况 ， 即 某 个 线程 的 任务 队列 中 还 有 很 多 任务 未 被 处 理 ， 其 他 线程 却 处 
于 空 内 状态 。OceanBase 采 取 了 一 种 很 简 单 的 集 略 应 对 这 种 情况 ， 每 个 


工作 线程 首先 尝试 从 对 应 的 任务 队列 中 获取 任务 ， 如 采 获 取 失 败 (对 
应 的 任务 队列 为 空 ，， 那 么 ， 忆 历 所 有 工作 线程 的 任务 队列 ， 直 到 获 
取 任 务 成 功 或 者 遇 历 完成 所 有 的 任务 队列 为 止 。 


除 此 之 外 ，OceanBase 还 实现 了 LightyQueue 用 于 解决 全 局 任务 队列 锁 冲 


突 问 题 。LightyQueue 的 设计 思想 如 下 : 


假设 系统 中 有 3 个 工作 线程 4，t2 和 雪 ， 全 局 任务 队列 中 共有 10 个 槽 位 。 
首 移 ，tL，t2 和 t3 分 别 等 待 1 号 ，2 号 以 及 3 号 槽 位 。 网 络 线程 将 任务 加 入 
1 号 槽 位 时 唤醒 由 ， 加 入 2 号 槽 位 时 唤醒 2， 加 入 3 号 槽 位 时 唤醒 t3。 接 
着 ，t2 很 快 将 任务 处 理 完成 后 等 待 4 号 槽 位 ，t3 等 待 5 号 槽 位 ，tL 等 待 6 号 
槽 位 。 网 络 线 程 将 任务 加 入 到 4，5，6 号 槽 位 时 将 分 别 唤醒 2，t3 和 t1 。 
通过 这 样 的 方式 ， 每 个 工作 线程 在 不 同 的 槽 位 上 等 待 ， 避 人 免 了 全 局 锁 


冲突 。 


将 任务 加 入 到 工作 队列 (push) 的 操作 如 下 : 
1) 占据 下 一 个 push 构 位 ; 
2) 将 任务 加 入 到 该 push 槽 位 ; 


3) 唤醒 该 push 槽 位 上 正在 等 待 的 工作 线程 。 


工作 线程 从 任务 队列 中 获取 任务 (pop) 的 操作 如 下 : 


1) 占据 下 一 个 pop 横 位 ; 


2) 如 果 该 pop 模 位 上 有 任务 ， 则 直接 返回 


3) 否则 ， 工 作 线程 在 该 pop 槽 位 上 等 待 直 到 被 push 操 作 唤 醒 或 者 超 
时 。 


9.1.5 网 络 框架 

OceanBase 的 网 络 框架 代码 如 下 : 

class ObSingleServer 

{ 

public: 

/设置 工作 线程 个 数 

int set_thread_count(const int thread_count); 
/设置 网 络 IO 线程 个 数 

int set_io_thread_count(const int io_thread_count); 


/设置 监听 端口 


int set_listen_port(const int listen_port); 
public: 


1/ 处 理 接收 到 的 网 络 包 ， 默 认 的 处 理 逻 辑 是 将 网 络 包 加 入 到 全 局 任务 队 
列 中 


virtual int handlePacket(ObPacket*packet); 


// 工 作 线 程 每 次 从 全 局 任务 队列 中 取出 一 个 网 络 包 并 调用 该 函数 进行 处 
理 


Virtual do_request(ObPacket*packet); 


OceanBase 服 务 端 接 收 客户 端 发 送 的 网 络 包 (ObPacket) ， 并 交 给 
handlePacket 处 理 函 数 进 行 处 理 。 默 认 情 况 下 ，handlePacket 会 将 网 络 包 
加 入 到 全 局 任务 队列 中 。 接 着 ， 工 作 线 程 会 从 全 局 任务 队列 中 不 断 获 
取 了 网 络 包 ， 并 调用 do_requestj 埋 行 处 理 ， 处 理 完 成 后 应 答 客户 端 。 可 以 
分 别 通过 set thread_count 以 及 set io_thread_count 函 数 来 设置 工作 线程 
以 及 网 络 线程 的 个 数 。 


客户 端 使 用 ObClientManager 发 送 网 络 包 : 


class ObClientManager 


/Oparam[in]server 服 务 右 端 地 址 
/G@param[in]pcode 请 求 包 的 类 型 (packet code) 


//@paraml[in]version 请 求 包 的 版 本 


/Oparam[injin_buffer 请 求 包 实际 内 容 绥 冲 区 


int post_request(const ObServer& server,const int32_t pcode,const int32_t 


version,const ObDataBuffer&in_buffer)const; 

1/ 同步 发 送 请 求 包 并 等 得 应 答 
/Oparam[in]server 服 务 右 端 地 址 
/G@param[in]pcode 请 求 包 的 类 型 (packet code) 
//@paraml[in]version 请 求 包 的 版 本 


//@param[in]timeout 请 求 时 间 


/Oparam[injin_buffer 请 求 包 实际 内 容 绥 冲 区 


/@param[outjout_buffer 应 答 包 的 实际 内 容 缓冲 区 


int send_request(const ObServer& server,const int32_t pcode,const int32_t 
version,const int64 t timeout,ObDataBufferé-in buffer,ObDataBuffer 


out_buffer)const; 


一 一 
人 


客户 端 发 包 分 为 两 种 情况 : 异步 请 求 (post_request) 以 及 同步 请 求 
(send_request) 。 异 步 请 求 时 ， 客 户 端 将 请 求 包 加 入 到 网 络 发 送 队 列 
后 立即 返回 ， 不 等 待 应 答 。 同 步 请 求 时 ， 客 户 端 将 请 求 包 加 入 到 网 络 
发 送 队 列 后 开始 阻 赛 等待， 直到 网 络 线程 接收 到 服务 端的 应 答 包 后 才 
唤醒 客户 端 ， 从 而 执行 后 续 处 理 逻 辑 。 


9.1.6 压缩 与 解压 缩 


class ObCompressor 


public: 
/数据 压缩 与 解压 缩 接口 


/G@param[in]src_buff 输 入 数据 绥 神 区 


//@param[in]src_data_size 输 入 数据 大 小 
//@param[in/out]dst_buffer 输 出 数据 绥 冲 区 
//@param[in]dst_buffer_size 输 出 数据 缓冲 区 大 小 
//@param[out]dst_data_size 输 出 数据 大 小 


Virtual compress(const char*src_buffer,const int64_t 
src_data_ size,char*dst_buffer,const int64 t dst_buffer size,int64 t&z 


dst_data_size)=0; 


virtual decompress(const char*src_buffer,const int64_t 
src_data_ size,char*dst_buffer,const int64 t dst_buffer size,int64 t&z 


dst_data_size)=0; 


1/ 获取 压缩 库 名 称 


const char*get_compress_name()const; 


/根据 传 入 的 大 小 计算 压缩 后 最 大 可 能 的 溢出 大 小 


int64 _t get_max_overflow_size(const int64 _t src_data_size)const; 


}; 


ObCompressor 定 义 了 压缩 与 解压 缩 的 通用 接口 ， 具 体 的 压缩 库 实 现 了 
这 些 接 口 。 压 缩 库 以 动态 库 (.so) 的 形式 存在 ， 每 个 工作 线程 第 一 次 
调用 compress 或 者 decompress 方 法 时 将 加 载 相 应 的 动态 库 ， 这 样 便 实现 
了 压缩 库 的 插件 化 。 目 前 ， 文 持 的 压缩 库 包 括 LZO[1] 以 及 Snappy[2]。 


[1]LZO: Whttp:/www.oberhumer.com/opensource/lzo/ 


[2]Snappy: _ Google 开源 的 压缩 库 ， 见 http:Wcode.google.comyp/snappy/ 


9.2 RootServer 实 现 机 制 


RootServer 是 OceanBase 集 群 对 外 的 窗口 ， 客 户 端 通过 RootServer 获 取 集 
群 中 其 他 模块 的 信息 。RootServer 实 现 的 功能 包括 : 


e 管 理 集群 中 的 所 有 ChunkServer， 人 处理 ChunkServer 上 下 线 ; 


e 管 理 集群 中 的 UpdateServer， 实 现 UpdateServerj 选 主 ; 


e 管 理 集群 中 子 表 数 据 分 布 ， 发 起 子 表 复 制 、 迁 移 以 及 合并 等 操作 ; 
e 与 ChunkServer 保 持 心跳 ， 接 受 ChunkServer 汇 报 ， 处 理子 表 分 裂 ; 


e 接 受 UpdateServer 汇 报 的 大 版 本 冻结 消 上 居 ， 通 知 ChunkServer 执 行 定 期 
合并 ; 


e 实 现 主 备 RootServer， 数 据 强 同 步 ， 文 持 主 RootServer 宕 机 目 动 切换 。 


9.2.1 数据 结构 


RootServer 的 中 心 数据 结构 为 一 张 存 储 了 子 表 数 据 分 布 的 有 序 表格 ， 称 
为 RootTable。 每 个 子 表 存 储 的 信息 包括 : 了 于 表 主 键 范 围 、 子 表 各 个 副 

本 所 在 ChunkServer 的 编写、 了 于 表 各 个 副本 的 数据 行 数 、 占 用 的 位 副 空 

间 、CRC 校 验 值 以 及 基线 数据 版 本 。 


RootTable 是 一 个 读 多 写 少 的 数据 结构 ， 除 了 ChunkServer 汇 报 、 
RootServer 发 起 子 表 复 制 、 迁 移 以 及 合并 等 操作 需要 修改 RootTable 外 ， 
其 他 操作 都 只 需要 从 RootTable 中 读 取 某 个 子 表 所 在 的 ChunkServer 。 
此 ，OceanBase 设 计时 考虑 以 写 时 复制 的 方式 实现 该 结构 ， 太 外， 考虑 
到 RootIable 修 改 特别 少 ， 实 现时 没有 采用 文 持 写 时 复制 的 B+ 树 或 者 跳 
跃 表 (Skip List) ， 而 是 采用 相对 更 加 简单 的 有 序数 组 ， 以 减少 工作 


三 =; 


里 ” 


往 RootTable 增 加 子 表 信 息 的 操作 步骤 如 下 : 

1) 拷贝 当前 服务 的 RootTable 为 新 的 RootTable; 

2) 将 子 表 信息 追加 到 新 的 RootTable， 并 对 新 的 RootTable 重 新 排序 ; 
3) 原子 地 修改 指针 使 得 当前 服务 的 RootTable 指 向 新 的 RootTable 。 


ChunkServer 一 次 汇报 一 批 子 表 (默认 一 批 包含 1024 个 ) ， 如 果 每 个 子 
表 修 改 都 需要 找 贝 整个 RootTable 并 重新 排序 ， 性 能 上 显然 无 法 接受 。 


RootServer 实 现时 做 了 一 些 优化 : 拷贝 当前 服务 的 RootTable 为 新 的 
RootTable 后 ， 将 ChunkServer 汇 报 的 一 批 子 表 一 次 性 追加 到 新 的 
RootTable 中 并 重新 排序 ， 最 后 再 原子 地 切换 当前 服务 的 RootTable 为 新 
的 RootTable。 采 用 批 处 理 优 化 后 ，RootTable 的 性 能 基本 满足 需求 ， 
OceanBase 单 个 集群 支持 的 子 表 个 数 最 大 达到 几 百 万 个 。 当 然 ， 这 种 实 
现 方式 并 不 优雅 ， 我 们 后 续 将 改造 RootTable 的 实现 方式 。 


ChunkServer 汇 报 的 子 表 信 息 可 能 和 RootTable 中 记录 的 不 同 ， 比 如 发 生 
了 子 表 分 裂 。 此 时 ，RootServer 需 要 根据 汇报 的 tablet 信 息 更 新 
RootIable。 


如 图 9-2 所 示 ， 假 设 原 来 的 RootTable 包 含 四 个 子 表 : rl (min,，10]、r2 
(10，100]、r3 (100，1000]、r4 (1000，max]、ChunkServer 汇 报 的 子 
表 列 表 为 : t1 (10，50]、t2 (50，100]、t3 (100，1000]， 表 示 r2 发 生 
了 tablet 分 裂 ， 那 么 ，RootServer 会 将 RootTable 修 改 为 : rl (min，10]、 


r2 (10, 50] ~ r3 (50, 100] ~r4 (100, 1000] ~、r5 (1000, max]° 


(10, 100] 


(100, 1000] 
(1000, max] 


(min, 10] 
EN 


(10000, max] 


旧 RootTable 新 RootTable 


图 9-2 RootTable 修 改 


RootServer 中 还 有 一 个 管理 所 有 ChunkServer 信 息 的 数组 ， 称 为 
ChunkServer-Manager。 数 组 中 的 每 个 元 素 代表 一 台 ChunkServer， 存 储 
的 信息 包括 : 机 器 状态 〈 已 下 线 、 正 在 服务 、 正 在 汇报 、 汇 报 完成 ， 
等 等 ) 、 启 动 后 注册 时 间 、 上 次 心跳 时 间 、 磁 盘 相 关 信 息 、 负 载 均衡 
相关 信息 。OceanBase 刚 上 线 时 依据 每 全 ChunkServer 做 盘 占 用 信息 执行 
负载 均衡 ， 目 的 是 为 了 尽 可 能 确保 每 人 台 ChunkServer 占 用 差不多 的 磁盘 
空间 。 上 线 运行 一 段 时 间 后 发 现 这 种 方式 效果 并 不 好 ， 目 前 的 方式 为 
按照 每 个 表格 的 子 表 个 数 执行 负载 均衡 ， 目 的 是 尽 可 能 保证 对 于 每 个 
表格 、 每 台 ChunkServer 上 的 子 表 个 数 大 致 相同 。 


9.2.2 子 表 复 制 与 负载 均衡 


RootServer 中 有 两 种 操作 都 可 能 触发 子 表 迁 移 : 子 表 复 制 
(rereplication) 以 及 负载 均衡 (rebalance) 。 当 某 些 ChunkServer 下 线 
超过 一 段 时 间 后 ， 为 了 防止 数据 丢失 ， 需 要 找 贝 副本 数 小 于 阀 值 的 子 
表 ， 另 外 ， 系 统 也 需要 定期 执行 负载 均衡 ， 将 子 表 从 负载 较 高 的 机 器 
迁移 到 负载 较 低 的 机 器 。 


每 台 ChunkServer 记 有 杂 了 子 表 迁移 相关 人 信息， 包括: ChunkServer 上 子 表 
的 个 数 以 及 所 有 子 表 的 大 小 总 和 ， 正 在 迁 入 的 子 表 个 数 、 正 在 迁 出 的 


子 表 个 数 以 及 子 表 迁 移 任务 列表 。RootServer 包 含 一 个 专门 的 线程 定期 
执行 子 表 复制 与 负载 均衡 任务 ， 步 又 如 下 : 


1) 子 表 复 制 : 扫描 RootTable 中 的 子 表 ， 如 果 某 个 子 表 的 副本 数 小 于 奖 
值 ， 选 取 某 台 包 含 子 表 副 本 的 ChunkServer 为 迁移 源 ， 另 外 一 台 符 合 

求 的 ChunkServer 为 迁移 目的 地 ， 生 成 子 表 迁移 任务 。 迁 移 目 的 地 需要 
符合 一 些 条 件 ， 比 如 ， 不 包含 待 迁移 子 表 ， 服 务 的 子 表 个 数 小 于 平均 
个 数 减 去 可 容忍 个 数 《默认 值 为 10) ， 正 在 进行 的 迁移 任务 不 超过 内 
值 等 。 


2) 负载 均衡 : 扫描 RootTable 中 的 子 表 ， 如 果 某 台 ChunkServer 包 含 的 
某 个 表格 的 子 表 个 数 超过 平均 个 数 以 及 可 容忍 个 数 (默认 值 为 10) 之 
和 ， 以 这 台 ChunkServer 为 迁移 源 ， 并 选择 一 台 符 合 要 求 的 
ChunkServer， 生 成 子 表 迁 移 任务 。 


阔 


子 表 复制 以 及 负载 均衡 生成 的 子 表 迁 移 任务 并 不 会 立即 执行 ， 而 是 会 
加 入 到 迁移 源 的 迁移 任务 列表 中 ，RootServer 还 有 一 个 后 台 线 程 会 扫描 
所 有 的 ChunkServer， 接 着 执行 每 台 ChunkServer 的 迁移 任务 列表 中 保存 
的 迁移 任务 。 子 表 迁 移 时 限制 了 每 全 ChunkServer 同 时 进行 的 最 大 迁 入 
和 迁 出 任务 数 ， 从 而 防止 一 台新 的 ChunkServer 刚 上 线 时 ， 迁 入 大 量子 
表 而 负载 过 高 。 


例 9-1 某 OceanBase 集 群 包含 4 台 ChunkServer: ChunkServerl (包含 子 表 
A1、A2、A3) ，ChunkServer2 (包含 子 表 A3、A4) ，ChunkServer3 
(包含 子 表 A2) ，ChunkServer4 (包含 子 表 A4) 。 


假设 子 表 副 本 数 配置 为 2， 最 多 能 够 容忍 的 不 均衡 子 表 的 个 数 为 0。 
RootServer 后 台 线 程 首 先 执行 子 表 复 制 ， 发 现 子 表 A1 只 有 一 个 副本 ， 于 
是 ， 将 ChunkServer1 作 为 迁移 源 ， 选 择 某 台 ChunkServer (假设 为 
ChunkServer3) 作为 迁移 目的 ， 生 成 迁移 任务 < ChunkServer1， 
ChunkServer3，A1>“。 接 着 ， 执 行 负载 均衡 ， 发 现 ChunkServer1 包 合 3 
个 子 表 ， 超 过 平均 值 〈 平 均值 为 0) ， 而 ChunkServer4 包 含 的 子 表 个 数 
小 于 平均 值 ， 于 是 ， 将 ChunkServer1 作 为 迁移 源 ，ChunkServer4 作 为 迁 
移 目 的 ， 选 择 某 个 子 表 (假设 为 A2) ， 生 成 迁移 任务 < 
ChunkServer1，ChunkServer4，A2>。 如 果 诗 移 成 功 ，A2 将 包含 3 个 副 
本 ， 可 以 通知 ChunkServer1 删 除 上 面 的 A2 副 本 。 最 后 ，tablet 分 布 情况 
为 : ChunkServerl (包含 tablet A1、A3) ，ChunkServer2 (包含 tablet 


A3、A4) ，ChunkServer3 (包含 tablet A1、A2) ，ChunkServer4 ( 包 
含 tablet A2、A4) ， 每 个 tablet 包 含 2 个 副本 ， 且 平均 分 布 在 4 台 
ChunkServer 上 。 


9.2.3 子 表 分 裂 与 合并 


子 表 分 裂 由 ChunkServer 在 定期 合并 过 程 中 执行 ， 由 于 每 个 子 表 包 含 多 
个 副本 ， 且 分 布 在 多 台 ChunkServer 上 ， 如 何 确保 多 个 副本 之 间 的 分 裂 


点 保持 一 致 成 为 问题 的 关键 。OceanBase 采 用 了 一 种 比较 直接 的 做 法 : 
每 合 ChunkServer 使 用 相同 的 分 询 规 则 。 由 于 每 个 子 表 的 不 同 副本 之 间 
的 基线 数据 完全 一 致 ， 且 定期 合并 过 程 中 冻结 的 增 量 数据 也 完全 相 
同 ， 只 要 分 腹 规 则 一 致 ， 分 裂 后 的 子 表 主 键 范围 也 保证 相同 。 


OceanBase 曾 经 有 一 个 线 上 版 本 的 分 裂 规 则 如 下 : 只 要 定期 合并 过 程 中 
产生 的 数据 量 超过 256MB， 就 生成 一 个 新 的 子 表 。 假 设 定期 合并 产生 
的 数据 量 为 257MB， 那 么 最 后 将 分 裂 为 两 个 子 表 ， 其 中 ， 前 一 个 子 表 

( 记 为 r1) 的 数据 量 为 256MB， 后 一 个 子 表 〈 记 为 r2) 的 数据 量 为 
1MB。 接 着 ，rl 接 受 新 的 修改 ， 数 据 量 很 快 又 超过 256MB， 于 是 ， 又 
分 裂 为 两 个 子 表 。 系 统 运 行 一 段 时 间 后 ， 充 斥 着 大 量 数据 量 很 少 的 子 
表 o 


为 了 解决 分 裂 产生 小 子 表 的 问题 ， 需 要 确保 分 裂 以 后 的 每 个 子 表 数 据 
量 大 致 相同 。OceanBase 对 每 个 子 表 记录 了 两 个 元 数据 : 数据 行 数 
row_count 以 及 子 表 大 小 (occupy_size) 。 根 据 这 两 个 值 ， 可 以 计算 出 
每 行 数据 的 平均 大 小 ， 即 : occupy_size/row_count。 


根据 数据 行 平均 大 小 ， 可 以 计算 出 分 裂 后 的 子 表 行 数 ， 从 而 得 到 分 询 
Re 


子 表 合 并 相对 更 加 麻烦 ， 步 又 如 下 : 


1) 合并 准备 : RootServer 选 择 若 干 个 主键 范围 连续 的 小 子 表 ; 


2) 子 表 迁 移 ， 将 符合 并 的 若干 个 小 子 表 迁移 到 相同 的 ChunkServer 机 


口 量 


卫 祈 ; 


3) 子 表 合 并 : 往 ChunkServer 机 器 发 送 子 表 合 并 命令 ， 生 成 合并 后 的 子 


例 9-2 某 OceanBase 集 群 中 有 3 人 台 ChunkServer: ChunkServerl (包含 子 表 
A1、A3) ，ChunkServer2 (包含 子 表 A2、A3) ，ChunkServer3 (包含 
子 表 A1、A2) ， 其 中 ，Al 和 A2 分 别 为 10MB,A3 为 256MB 。RootServer 
扫描 RootIable 后 发 现 A1 和 A2 满 足 子 表 合 并 条 件 ， 首 先 发 起 子 表 迁 移 ， 
假设 将 A1 迁 移 到 ChunkServer2， 使 得 A1 和 A2 在 相同 的 ChunkServer 上 ， 
接着 分 别 各 ChunkServer2 和 ChunkServer3 发 起 子 表 合 并 命令 。 子 表 合 并 
完成 以 后 ， 子 表 分 布 情况 为 : ChunkServerl (包含 子 表 A3) ， 
ChunkServer2 (包含 子 表 A4 (A1，A2) ，A3) ，ChunkServer3 (包含 
子 表 A4 (A1，A2) ) ， 其 中 ，A4 是 子 表 A1 和 A2 合 并 后 的 结果 。 


每 个 于 表 包 含 多 个 副本 ， 只 要 某 一 个 副本 合并 成 功 ，OceanBase 束 认为 
子 表 合并 成 功 ， 其 他 合并 失败 的 子 表 将 通过 垃圾 回收 机 制 删 除 挥 。 


9.2.4 UpdateServer 选 主 


为 了 确保 一 致 性 ，RootServer 需 要 确保 每 个 集群 中 只 有 一 人 台 
UpdateServer 提 供 写 服务 ， 这 个 UpdateServer 称 为 主 UpdateServer 。 


RootServer 通 过 租约 〈Lease) 机 制 实现 UpdateServer 选 主 。 主 
UpdateServer 必 须 持 有 RootServer 的 租约 才能 提供 写 服 务 ， 租 约 的 有 效 
期 一 般 为 3 一 5 秒 。 正 常情 况 下 ，RootServer 会 定期 给 主 UpdateServer 发 
送 命 令 ， 延 长 租约 的 有 殖 期 。 如 果 主 UpdateServer 出 现 异 党 ， 
RootServer 等 待 主 UpdateServer 的 租约 过 期 后 才能 选择 其 他 的 


UpdateServer 为 主 UpdateServer 继 续 提 供 写 服务 。 


RootServer 可 能 需要 频繁 升级 ， 升 级 过 程 中 UpdateServer 的 租约 将 很 快 
过 期 ， 系 统 也 会 因此 停 服 务 。 为 了 解决 这 个 问题 ，RootServer 设 计 了 优 
雅 退 出 的 机 制 ， 即 RootServer 退 出 之 前 给 UpdateServer 发 送 一 个 有 效 期 
超 长 的 租约 (比如 半 小 时 ) ， 承 诺 这 段 时 间 不 进行 主 UpdateServerj 先 
举 ， 用 于 RootServer 升 级 。 代 码 如 下 : 


enum ObUpsStatus 


UPS_STAT_OFFLINE=0，//UpdateServer 已 下 线 


UPS_STAT_ NOTSYNC=1，VWUpdateServer 为 备 机 且 与 主 UpdateServer 不 
同步 


UPS_STAT_SYNC=2，/WUpdateServer 为 备 机 且 与 主 UpdateServer 同 步 


UPS_STAT_MASTER=3，//UpdateServer 为 主机 


}; 
/RootServer 中 记录 UpdateServer 信 息 的 结构 


class ObUps 


ObServer addr_ ;WUpdateServer 地 址 

int32_t inner_port_;WUpdateServer 内 部 端口 
int64_t log_seq_num_;//UpdateServer 的 日 志 号 
int64_t lease_;//UpdateServer 的 租约 
ObUpsStatus stat_;//UpdateServer 状 态 

}; 


class ObUpsManager 


public: 


//UpdateServer| 可 RootServer 注 册 


int register_ups(const ObServerSiaddr,int32_t inner_port,int64 t 


log_seq_num,int64 t lease,const char*server_version); 


/检查 所 有 UpdateServer 的 租约 ，RootServer 内 部 有 专门 的 线程 会 定时 调 
用 该 函数 


int check_lease(); 
/RootServer 给 UpdateServer 发 送 租约 

int grant_lease(); 
/RootServer 给 UpdateServer 发 送 超 长 租约 
int grant_eternal_lease(); 

private: 

ObUps ups_array_ [MAX UPS_ COUNIT]; 
int32_t ups_master idx ; 

}; 


RootServer 模 块 中 有 一 个 ObUpsManager 类 ， 它 包含 一 个 数组 
ups_array_， 其 中 的 每 个 元 素 表示 一 个 UpdateServerups_master_idx_ 表 
示 主 UpdateServer 在 数组 里 的 下 标 。ObUps 结 构 记 录 了 UpdateServer 的 信 


息 ， 包 括 UpdateServer 的 地 址 (addr_ ) 以 及 内 部 端口 (inner_port_) ， 
UpdateServer 的 状态 (stat_， 分 为 

UPS_STAT _ OFFLINE/UPS_STAT NOTSYNC/UPS_STAT SYNC/UP9S_ 9 
TAT_MASTER 这 四 种 ) ，UpdateServer 的 日 志 号 (log_seq_num_) 以 及 
租约 (ease ) 。 


UpdateServer 首 先 通过 register_ups| 可 RootServer 注 册 ， 将 它 的 信息 告知 
RootServer。 一 段 时 间 之 后 ，RootServer 会 从 所 有 注册 的 UpdateServer 中 
选取 一 人 台 日 志 号 最 大 的 作为 主 UpdateServer。ObUpsManager 类 中 还 有 一 
个 check_lease 范 数 ， 由 RootServer 内 部 线程 定时 调用 ， 如 果 发 现 
UpdateServer 的 租约 快要 过 期 ， 则 会 通过 grant_lease 给 UpdateServer 延 长 
租约 。 如 果 发 现 主 UpdateServer 的 租约 已 经 失效 ， 则 会 从 所 有 Update- 
Server 中 选择 一 个 日 志 号 最 大 的 UpdateServer 作 为 靳 的 主 UpdateServer。 
另外 ，RootrServer 还 可 以 通过 grant_eternal_lease 给 UpdateServer 发 送 超 
长 租约 。 


9.2.5 RootServer 主 备 


每 个 集群 一 般 部 署 一 主 一 备 两 台 RootServer， 主 备 之 间 数 据 强 同步 ， 即 
所 有 的 操作 都 需要 首先 同步 到 备 机 ， 接 着 修改 主机 ， 最 后 才能 返回 操 
作成 功 。 


RootServer 主 备 之 间 需 要 同步 的 数据 包括 : RootTable 中 记录 的 子 表 分 布 
言 县 、ChunkServerManager 中 记录 的 ChunkServer 机 絮 变 化 信息 以 及 
UpdateServer 机 器 信息 。 子 表 复制 、 负 载 均衡 、 合 并 、 分 裂 以 及 
ChunkServevUpdateServer 上 下 线 等 操作 都 会 引起 RootServer 内 部 数据 变 
化 ， 这 些 变 化 都 将 以 操作 日 志 的 形式 同步 到 备 RootServer。 备 
RootServer 实 时 回放 这 些 操作 日 志 ， 从 而 与 主 RootServer 保 持 同 步 。 


OceanBase 中 的 其 他 模块 ， 比 如 ChunkServer/UpdateServer， 以 及 客户 端 
通过 VIP (Virtual IP) 访问 RootServer， 正 常情 况 下 ，VIP 总 是 指向 主 
RootServer。 当 主 RootServer 出 现 故障 时 ， 部 署 在 主 备 RootServer 上 的 
Linux HA (heartbeat， 心 跳 ) ， 软 件 能 够 检测 到 ， 并 将 VIP 漂移 到 备 
RootServer。Linux HA 软件 的 核心 包含 两 个 部 分 ， 心跳 检测 部 分 和 资源 
接管 部 分 ， 心 跳 检测 部 分 通过 网 络 链 接 或 者 串口 线 进 行 ， 主 备 
RootServer 上 的 心跳 软件 相互 发 送 报 文 来 告诉 对 方 自己 当前 的 状态 。 如 
果 在 指定 的 时 间 内 未 收 到 对 方 发 送 的 报 文 ， 那 么 就 认为 对 方 失败 ， 这 
时 需 启动 资源 接管 模块 来 接管 运行 在 对 方 主机 上 的 资源 ， 这 里 的 资源 
就 是 VIP。 备 RootServer 后 人 台 线 程 能 够 检测 到 VIP 漂移 到 目 号 ， 于 是 自动 
切换 为 主机 提供 服务 。 


9.3 UpdateServer 实 现 机 制 


UpdateServer 用 于 存储 增 量 数据 ， 它 是 一 个 单机 存储 系统 ， 由 如 下 几 个 
部 分 组 成 : 


e 内 存 存储 引擎 ， 在 内 存 中 存储 修改 增 量 ， 文 持 冻 结 以 及 转 储 操 作 ; 


e 任 务 处 理 模 型 ， 包 括 网 络 框 架 、 任 务 队 列 、 工 作 线程 等 ， 针 对 小 数据 
包 做 了 专门 的 优化 ; 


e 主 备 同步 模块 ， 将 更 新 事务 以 操作 日 志 的 形式 同步 到 备 


UpdateServer ° 


UpdateServer 是 OceanBase 性 能 财 贷 点 ， 核 心 是 高 效 ， 实 现时 对 锁 ( 例 
如 ， 无 锁 数据 结构 ) 、 索 引 结构 、 内 存 占用 、 任 务 处 理 模型 以 及 主 备 
同步 都 需要 做 专门 的 优化 。 


9.3.1 存储 引擎 


UpdateServer 存 储 引 擎 如 图 9-3 所 示 。 


Memory 


SSD Disk 


SSTable 文 借 


图 9-3 UpdateServer 存 储 引 警 


UpdateServer 存 储 引 警 与 6.1 世 中 提 到 的 Bigtable 存 储 引 警 看 起 来 很 相 
似 ， 不同 点 在 于 : 


eUpdateServer 只 存储 了 增 量 修改 数据 ， 基 线 数 据 以 SSTable 的 形式 存储 
在 ChunkServer 上 ， 而 Bigtable 存 储 引 擎 同时 包含 条 个 于 表 的 基线 数据 
和 增 量 数 据 ; 


eUpdateServer 内 部 所 有 表格 共用 MemTable 以 及 SSTable， 而 Bigtable 中 
每 个 子 表 的 MemTable 和 SSTable 分 开 存 放 ; 


eUpdateServer 的 SSTable 存 储 在 SSD 人 磁盘 中 ， 而 Bigtable 的 SSTable 存 储 
在 GFS 中 。 


UpdateServer 存 储 引 警 包 含 几 个 部 分 ， 操作 日 志 、MemTable 以 及 
SSTable。 更 新 操作 首先 记录 到 操作 日 志 中 ， 接 着 更 新 内 存 中 活跃 的 
MemTable (Active MemTable) ， 活 跃 的 MemTable 到 达 一 定 大 小 后 将 被 
冻结 ， 称 为 Frozen MemTable， 同 时 创建 新 的 Active MemTable 。Frozen 
MemTable 将 以 SSTable 文 件 的 形式 转 储 到 SSD 人 三 盘 中 。 


下 四 二 


OceanBase 中 有 一 个 专门 的 提交 线程 负责 确定 多 个 写 事务 的 顺序 ( 即 事 
务 id) ， 将 这 些 写 事务 的 操作 追加 到 日 志 缓 冲 区 ， 并 将 日 志 缓 冲 区 的 内 


容 写 入 日 志文 件 。 为 了 防止 写 操作 日 志 污 染 操 作 系 统 的 缓存 ， 写 操作 
日 志文 件 采 用 Direct IO 的 方式 实现 : 


class ObLogWriter 


public: 
/write_ log 函数 将 操作 日 志 存 入 日 志 缓 神 区 


int write_log(const LogCommand cmd,const char*log_data,const int64 { 


data_len); 


// 将 日 志 绥 冲 区 中 的 日 志 先 同步 到 备 机 再 写 入 主机 磁 副 


int flush_log(LogBuffer&tlog_buffer,const bool sync_to_slave=true,const 


bool is_master=true); 


}; 


日 志 项 由 四 部 分 组 成 : 日 志 头 + 日 志 序号 + 日 志 类 型 
Ja + 日 志 内 容 ， 其 中 ， 日 志 头 中 记录 了 每 条 日 志 的 校 验 
和 (checksum) 。ObLogWriter 中 的 write log 函数 负责 将 操作 日 志 拷 贝 
到 日 志 缓 冲 区 中 ， 如 有 果 日 志 缓 冲 区 已 满 ， 则 向 调 用 者 返回 缓冲 区 不 足 
(OB_BUF_NOT_ENOUGH) 错误 码 。 接 着 ， 调 用 者 会 通过 flush log 


将 缓冲 区 中 已 有 的 日 志 内 容 同 步 到 备 机 并 写 入 主机 磁盘 。 如 采 主 机 全 
盘 的 最 后 一 个 日 志文 件 超 过 指定 大 小 (默认 为 64MB) ， 还 会 调用 
switch log 函数 切换 日 志文 件 。 为 了 提高 写 性 能 ，UpdateServer 实 现 了 
成 组 提交 (Group Commit) 技术 ， 即 首先 多 次 调用 write_log 函 数 将 多 
个 写 操作 的 日 志 找 贝 到 相同 的 日 志 绥 冲 区 ， 接 着 再 调用 flush_log 久 数 将 
日 志 绥 冲 区 中 的 内 容 一 次 性 写 入 到 日 志文 件 中 。 


2.MemTable 


MemTable 底 层 是 一 个 高 性 能 内 存 B 树 。MemTable 封 装 了 B 树 ， 对 外 提 
供 统一 的 读 写 接口 。 


B 树 中 的 每 个 叶子 万 点 对 应 MemTable 中 的 一 行 数 据 ，key 为 行 主键 ， 
value 为 行 操 作 链表 的 指针 。 每 行 的 操作 按照 时 间 顺 序 构 成 一 个 行 操 作 
证 表 。 


如 图 9-4 所 示 ，MemTable 的 内 存 结构 包含 两 部 分 : 索引 结构 以 及 行 操 作 
链表 ， 索 引 结构 为 9.1.2 节 中 提 到 的 B 树 ， 支 持 插入 、 删 除 、 更 新 、 随 机 
读 取 以 及 范围 查询 操作 。 行 操作 链表 保存 的 是 对 某 一 行 各 个 列 (每 个 
行 和 列 确定 一 个 单元 ， 称 为 Cell) 的 修改 操作 。 
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图 9-4 MemTable 的 内 存 结构 


例 9-3 对 主键 为 1 的 商品 有 3 个 修改 操作 ， 分 别 是 : 将 商品 购买 人 数 修改 
为 100， 删 除 该 商品 ， 将 商品 名 称 修改 为 “ 女 鞋 *， 那 么 ， 该 商品 的 行 操 
作 链 中 将 保存 三 个 Cell， 分 别 为 ，<update， 购 买 人 数 ，100>、< 
delete，*>> 以 及 <update， 商 品名 ,，“ 女 鞋 >> 。 


MemTable 中 存储 的 是 对 该 商品 的 所 有 修改 操作 ， 而 不 是 最 终结 有 末 。 羽 
外 ，MemTable 删 除 一 行 也 只 古 往 行 操作 链表 的 末尾 加 入 一 个 逻辑 删除 
标记 ， 即 < delete，*>， 而 不 古 实 际 删 除 系 引 结构 或 者 行 操作 链表 中 
的 行内 容 。 


MemTable 实 现时 做 了 很 多 优化 ， 包 括 : 


e 哈 名 索引 : 针对 主要 操作 为 随机 读 取 的 应 用 ，MemTable 不 仅 文 持 B 树 
索引 ， 还 文 持 哈 硕 索 引 ，UpdateServer 内 部 会 保证 两 个 索引 之 间 的 一 臻 


人 性 有 


e 内 存 优化 : 行 操作 链表 中 每 个 cell 操 作 都 需要 存储 操作 列 的 编号 

(column_ id) 、 操 作 类 型 (更 新 操作 还 是 删除 操作 ) 、 操 作 值 以 及 指 
癌 下 一 个 cell 操 作 的 指针 ， 如 末 不 做 优化 ， 内 存 脱 胀 会 很 大 。 为 了 减少 
内 存 占用 ，MemTable 实 现时 会 对 整数 值 进行 变 长 编码 ， 并 将 多 个 cell 操 
作 编 码 后 序列 到 同一 块 缓冲 区 中 ， 共 用 一 个 指向 下 一 批 cell 操 作 绥 促 区 
的 指针 : 


struct ObCellMeta 


const static int64_t TP_INT8=1://int8 整 数 类 型 


const static int64_t TP_INT16=2://int16 整 数 类 型 


const static int64_t TP_INT32=3;//int32 整 数 类 型 


const static int64_t TP_INT64=4://int64 整 数 类 型 


const static int64 _t TP_ VARCHAR=6:// 变 长 字符 串 类 型 
const static int64_t TP_DOUBLE=13;// 双 精度 浮 点 类 型 


const static int64_t TP_ESCAPE=0x1f:// 扩 展 类 型 


const static int64_t ES_DEL_ROW=1:// 删 除 行 操 作 
}; 


class ObCompactCellWriter 


public: 

// 写 入 更 新 操作 ， 存 储 成 压缩 格式 

int append(uint64_t column_id,const ObObj Svalue); 
// 写 入 删除 操作 ， 和 存储 成 压缩 格式 

int row_delete(); 

}; 


MemTable 通 过 ObCompactCellWriter 来 将 cell 操 作 序 列 化 到 内 存 缓冲 区 
中 ， 如 果 为 更 新 操作 ， 调 用 append 画 数 ; 如 果 为 删除 操作 ， 调 用 
row_delete 函 数 。 更 新 操作 的 存储 格式 为 : 数据 类 型 + 值 + 列 
ID,TP_INT8/TP_INT16/TP_INT32/TP_INT64 分 别 表示 8 位 /16 位 /32 位 /64 


位 整数 类 型 ，TP_VARCHAR 表 示 变 长 字符 串 类 型 ，TP_DOUBLE 表 示 
双 精 度 浮 点 类 型 。 删 除 操作 为 扩展 操作 ， 其 存储 格式 为 : 


TP_ESCAPE+ES_DEL_ROW 。 例 9-3 中 的 三 个 Cell <update， 购 买 人 
数 ，100>、<delete，*> 以 及 <update， 商 品名 , “ 女 鞋 ”>> 在 内 存 缓 
冲 区 的 存储 格式 为 : 


Fp “FF fF rf | 


100 | 购买 人 数列 ID [TP ESCAPE |ES DEL ROW |TP VARCHAR 商品 各 


第 1 一 3 字 太 表示 第 一 个 Cell， 即 <update， 购 买 人 数 ，100> ; 第 4~5 字 
节 表 示 第 二 个 cell， 即 < delete，*> ; 第 6 一 8 字 节 表示 第 三 个 Cell， 即 


<update， 商 品名 , “ 女 鞋 >>。 


MemTable 的 主要 对 外 接口 可 以 归结 如 下 : 

/开局 一 个 事务 

/G@param[injtrans_type 事 务 类 型 ， 可 能 为 读 事务 或 者 写 事务 
//@param[outjtd 返 回 的 事务 描述 符 


int start_transaction(const TETransType 


trans_type, MemTableTransDescriptor&td); 
// 提 区 或 者 回 滚 一 个 事务 
/@param[in]jtd 事 务 描述 符 


//@param[in]rollback 是 否 回 深 ， 默 认为 false 


int end_transaction(const MemTableTransDescriptor td,bool rollback=false); 
/执行 随机 读 取 操 作 ， 返 回 一 个 迭代 需 

/@param[injtd 事 务 擂 述 符 

/Oparam[injtable_id 表 格 编号 

//@param[in]row_key 待 查询 的 主键 

//@param[out]jiter 返 回 的 迭代 器 


int get(const MemTableTransDescriptor td,const uint64 ttable_id,const 


ObRowkey&row_key,MemTablelterator S iter); 

/执行 范围 查询 操作 ， 返 回 一 个 迭代 器 

/@param[in]jtd 事 务 描述 符 

/Oparam[injrange 查 询 范 围 ， 包 括 起 始 行 、 结 束 行 ， 开 区 间或 者 闭 区 间 
//@param[out]jiter 返 回 的 迭代 器 


int scan(const MemTableTransDescriptor td,const ObRange& 


range, MemTablelterator& iter); 


/开始 执行 一 次 修改 操作 


/@param[injtd 事 务 描述 符 

int start_mutation(const MemTableTransDescriptor td); 

// 提 区 或 者 回 滚 一 次 修改 操作 

/@param[injtd 事 务 描述 符 

/Oparam[in]jrollback 有 是 否 回 次 

int end_ mutation(const MemTableTransDescriptor td,bool rollback); 
// 执 行 修改 操作 

/@param[injtd 事 务 描述 符 


/G@param[injmnutator 修 改 操 作 ， 包 含 一 个 或 者 多 个 对 多 个 表格 的 cel] 操 
作 


int set(const MemTableTransDescriptor td,ObUpsMutator& mutator); 
对 于 读 事务 ， 操 作 步 又 如 下 : 
1) 调用 start_transaction 开 始 一 个 读 事 务 ， 获 得 事务 描述 符 ; 


2) 执行 随机 读 取 或 者 扫描 操作 ， 返 回 一 个 和 代 器 ;接着 可 以 从 和 欠 代 器 
不 断 达 代 数据 ; 


3) 调用 end_transaction 提 交 或 者 回 深 一 个 事务 。 


class MemTablelterator 


public: 


/迭代 器 移动 到 下 一 个 cell 


int next_cell(); 


/获取 当前 cell 的 内 容 


//@param[out]cell_info 当 前 cell 的 内 容 ， 包 括 表 名 (table_id) 


(row_ 
key)， 列 编号 (column_id) 以 及 列 值 (column_value) 
int get_cell(ObCellInfo**cell_info); 
// 获 取 当 前 cell 的 内 容 
//@param[out]cell_info 当 前 cell 的 内 容 
//@param is_row_changed 是 否 从 代 到 下 一 行 


int get_cell(ObCellInfo**cel]l_info,bool*is_row_changed); 


， 行 主键 


一 一 


读 事 务 返 回 一 个 迭代 器 MemTablelterator， 通 过 它 可 以 不 断 地 获取 下 一 
个 读 到 的 cell。 在 例 9-3 中 ， 读 取 编 号 为 1 的 商品 可 以 得 到 一 个 迭代 器 ， 
从 这 个 迭代 器 中 可 以 读 出 行 操作 链 中 保存 的 3 个 Cell， 依 次 为 : < 
update， 购 买 人 数 ，100> ，<delete，* > ，<update， 商 品名 ,，“ 女 


畦 "> 。 


写 事务 总 是 批量 执行 ， 步 又 如 下 : 


1) 调用 start_transaction 开 始 一 批 写 事务 ， 获 得 事务 描述 符 ; 


2) 调用 start mutation 开始 一 次 写 操作 ; 


3) 执行 写 操 作 ， 将 数据 写 入 到 MemTable 中 


4) 调用 end_mnutation 提 交 或 者 回访 一 次 写 操作 ; 如 果 还 有 写 事 务 ， 转 
到 步骤 2) ，; 


5. 调 用 end_transaction 提 交 写 事务 。 


3.SSTable 


当 活 跃 的 MemTable 超 过 一 定 大 小 或 者 管理 员 主 动 发 起 冻结 命令 时 ， 活 
路 的 MemTable 将 被 冻结 ， 生 成 冻结 的 MemTable， 并 同时 以 SSTable 的 
形式 转 储 到 SSD 磁 盘 中 。 


SSTable 的 详细 格式 请 参考 9.4 节 ChunkServer 实 现 机 制 ， 与 ChunkServer 
中 的 SSTable 不 同 的 是 ，UpdateServer 中 所 有 的 表格 共用 一 个 SSTable， 
且 SSTable 为 稀疏 格式 ， 也 就 是 说 ， 每 一 行 数据 的 每 一 列 可 能 存在 ， 也 
可 能 不 存在 修改 操作 。 


另外 ，OceanBase 设 计时 也 尽量 避免 读 取 UpdateServer 中 的 SSTable， 只 
要 内 存 足 够 ,冻结 的 MemTable 会 保留 在 内 存 中 ， 系 统 会 尽快 将 冻结 的 
数据 通过 定期 合并 或 者 数据 分 发 的 方式 转移 到 ChunkServer 中 去 ， 以 后 
不 再 需要 访问 UpdateServer 中 的 SSTable 数 据 。 


当然 ， 如 果 内 存 不 够 需要 丢弃 冻结 MemTable， 大 量 请 求 只 能 读 取 SSD 
似 衣 ，UpdateServer 性 能 将 大 幅 下 降 。 因 此 ， 希 望 能 够 在 丢弃 冻结 


MemTable 之 前 将 SSTable 的 缓存 预 热 。 
UpdateServer 的 绥 存 预 热 机 制 实 现 如 下 : 在 丢弃 冻结 MemTable 之 前 的 一 


段 时 间 《比如 10 分 钟 ) ， 每 隔 一 段 时 间 《比如 30 秒 ) ， 将 一 定 比 率 
(比如 5%) 的 请 求 发 给 SSTable， 而 不 是 冻结 MemTable。 这 样 ， 
SSTable 上 的 读 请 求 将 从 5% 到 10%， 再 到 15%， 依 次 类 推 ， 直 到 100%， 
很 自然 地 实现 了 缓存 预 热 。 


9.3.2 任务 模型 


任务 模型 包括 网 络 框架 、 任 务 队 列 、 工 作 线 程 ，UpdateServer 最 初 的 任 
务 模型 基于 淘宝 网 实现 的 Tbnet 框 架 (已 开源 ， 见 


http://code.taobao.org/p/tb-common-utils/src/trunk/tbnet/) 。Tbnet 封 装 得 
很 好 ， 使 用 比较 方便 ， 每 秒 收 包 个 数 最 多 可 以 达到 接近 10 万 ， 不 过 仍 
然 无 法 完全 发 挥 UpdateServer 收 发 小 数据 包 以 及 内 存 服务 的 特点 。 
OceanBase 后 来 采用 优化 过 的 任务 模型 Libeasy， 人 小 数据 包 处 理 能 力 得 到 
进一步 提升 


1.Tbnet 


如 图 9-5 所 示 ，Tbnet 队 列 模型 本 质 上 是 一 个 生产 者 一 消费 者 队列 模型 ， 
有 两 个 线程 : 网络 读 写 线程 以 及 超时 检查 线程 ， 其 中 ， 网 络 读 写 线程 
执行 事件 循环 ， 当 服务 器 端 有 可 读 事 件 时 ， 调 用 回调 函数 读 取 请 求 数 
据 包 ， 生 成 请 求 任务 ， 并 加 入 到 任务 队列 中 。 工 作 线 程 从 任务 队列 中 
获取 任务 ， 处 理 完 成 后 触发 可 写 事 件 ， 网 络 读 写 线程 会 将 处 理 结 采 发 
送 给 客户 端 。 超 时 检查 线程 用 于 将 超时 的 请 求 移 除 。 


任务 队列 


图 9-5 Tbnetb 队 列 模型 


Tbnet 模 型 的 问题 在 于 多 个 工作 线程 从 任务 队列 获取 任务 需要 加 锁 互 
矿 ， 这 个 过 程 将 产生 大 量 的 上 下 文 切换 (context switch) ， 测 试 发 现 ， 
当 UpdateServer 每 秒 处 理 包 的 数量 超过 8 万 个 时 ，UpdateServer 每 秒 的 上 
下 文 切换 次 数 接近 30 万 次 ， 在 测试 环境 中 已 经 达到 极限 (测试 环境 配 
置 : Linux 内 核 2.6.18，CPU 为 2*Intel Nehalem E5520， 共 8 核 16 线 

程 ) 。 


2.Libeasy 


为 了 解决 收发 小 数据 包 市 来 的 上 下 文 切 换 问 题 ，OceanBase 目 前 采用 
Libeasy 任 务 模型 。Libeasy 采 用 多 个 线程 收发 包 ， 增 强 了 网 络 收发 能 
力 ， 每 个 线程 收 到 网 络 包 后 立即 处 理 ， 减 少 了 上 下 文 切换 ， 如 图 9-6 所 


修 ° 


短 任务 就 地 
处 理 


图 9-6 Libeasy 任 务 模型 


UpdateServer 有 多 个 网 络 读 写 线程 ， 每 个 线程 通过 Linux epool 监 听 一 个 
套 接 字 集合 上 的 网 络 读 写 事件 ， 每 个 套 接 字 只 能 同时 分 配给 一 个 线 
程 。 当 网 络 读 写 线程 收 到 网 络 包 后 ， 立 即 调用 任务 处 理 函 数 ， 如 果 任 
务 处 理 时 间 很 得， 可 以 很 快 完成 并 回复 客户 端 ， 不 需要 加 锁 ， 避 免 了 
上 下 文 切换 。UpdateServer 中 大 部 分 任务 为 短 任 务 ， 比 如 随机 读 取 内 存 
表 ， 另 外 还 有 少量 任务 需要 等 待 共享 资源 上 的 锁 ， 可 以 将 这 些 任务 加 
入 到 长 任务 队列 中 ， 交 给 专门 的 长 任务 处 理 线程 处 理 。 


由 于 每 个 网 络 读 写 线程 处 理 一 部 分 预先 分 配 的 套 接 字 ， 这 就 可 能 出 现 
某 些 套 接 字 上 请 求 特 别 多 而 导致 负载 不 均衡 的 情况 。 例 如 ， 有 两 个 网 


络 读 写 线程 hread1 和 thread2， 其 中 thread1 处 理 套 接 字 fd1、fd2，thread2 
处 理 套 搂 字 fd3、fd4，fd1 和 fd2 上 每 秒 1000 次 请 求 ，fd3 和 fdq4 上 每 秒 10 
次 请 求 ， 两 个 线程 之 间 的 负载 很 不 均衡 。 为 了 处 理 这 种 情况 ，Libeasy 
内 部 会 自动 在 网 络 读 写 线程 之 间 执行 负载 均衡 操作 ， 将 套 接 字 从 负载 
较 高 的 线程 迁移 到 负载 较 低 的 线程 。 


9.3.3 主 备 同 步 


8.4.1 下 已 经 介绍 了 UpdateServer 的 一 致 性 选择 。OceanBase 选 择 了 强 一 
致 性 ， 主 UpdateServer 往 备 UpdateServer 同 步 操 作 日 志 ， 如 果 同 步 成 

功 ， 主 UpdateServer 操 作 本 地 后 返回 客户 端 更 新 成 功 ， 否 则 ， 主 
UpdateServer 会 把 备 UpdateServer 从 同步 列表 中 剔除 。 另 外 ， 吻 除 备 
UpdateServer 之 前 需要 通知 RootServer， 从 而 防止 RootServer 将 不 一 致 的 


备 UpdateServer 选 为 主 UpdateServer 。 


如 图 9-7 所 示 ， 主 UpdateServer 往 备 机 推送 操作 日 志 ， 备 UpdateServer 的 
接收 线程 接收 日 志 ， 并 写 入 到 一 块 全 局 日 志 绥 冲 区 中 。 备 UpdateServer 
只 要 接收 到 日 志 就 可 以 回复 主 UpdateServer 同 步 成 功 ， 主 UpdateServer 
接着 更 新 本 地 内 存 并 将 日 志 刷 到 磁盘 文件 中 ， 最 后 回复 客户 端 写 入 操 
作成 功 。 这 种 方式 实现 了 强 一 致 性 ， 如 果 主 UpdateServer 出 现 故 障 ， 备 
UpdateServer 包 舍 所 有 的 修改 操作 ， 因 而 能 够 完全 无 颖 地 切换 为 主 
UpdateServer 继 续 提 供 服 务 。 另 外 ， 主 备 同 步 过 程 中 要 求 主机 刷 磁 僵 文 


件 ， 备 机 只 需要 写 内 存 缓冲 区 ， 强 同步 带 来 的 额外 延 时 也 几乎 可 以 忽 
上 。 


笠 UpdateServer 


E UpdateServer 一 一 一 C3 O (> 《 日 志 绥 冲 区 


推送 操作 日 志 


拉 取 操作 日 志 


图 9-7 UpdateServer 主 备 同 步 原 理 


正常 情况 下 ， 备 UpdateServer 的 日 志 回 放 线 程 会 从 全 局 日 志 绥 冲 区 中 读 
取 操 作 日 志 ， 在 内 存 中 回放 并 同时 将 操作 日 志 刷 到 备 机 的 日 志文 件 

中 。 如 果 发 生 异 常 ， 比 如 备 UpdateServer 刚 启动 或 者 主 备 之 间 网 络 刚 恢 
复 ， 全 局 日 志 缓 神 区 中 没有 日 志 或 者 日 志 不 连续 ， 此 时 ， 备 
UpdateServer 需 要 主动 请 求 主 UpdateServer 拉 取 操 作 日 志 。 
UpdateServer 首 先 查 找 日 志 绥 冲 区 ， 如 果 缓 冲 区 中 没有 数据 ， 还 需要 读 
取 磁 副 日 志文 件 ， 并 将 操作 日 志 回 复 备 UpdateServer。 代 码 如 下 : 


class ObReplayLogSrc 


public: 
/ 读 取 一 批 竺 回放 的 操作 日 志 


//@param[in]start_cursor 日 志 起 始点 


/G@param[outjend_id 访 取 到 的 最 大 日 志 号 加 1， 即 下 一 次 读 取 的 起 始 日 


记号 
/Oparam[in]buf 日 志 绥 神 区 


//@param[injlen 日 志 绥 冲 区 长 度 


//@param[out]read_count 读 取 到 的 有 效 字 市 数 


int get_log(const ObLogCursorSz start_cursor,int64 _t& 


end_id,char*buf,const int64_t len,int64_tSread_count); 
}; 


class ObUpsLogMgr 


public: 


enum WAIT_SYNC_TYPE 


WAIT_NONE=0, 

WAIT _ COMMIT=1, 

WAIT_FLUSH=2, 

上 

public: 

/ 备 UpdateServer 接 收 主 UpdateServer 发 送 的 操作 日 志 


int slave_receive_log(const char*buf,int64_t len,const int64_t 


wait_sync_time us,const WAIT_SYNC_TYPE wait_event type); 
/ 备 UpdateServer 获 取 并 回放 操作 日 志 

int replay_log(); 

}; 


备 UpdateServer 接 收 到 主 UpdateServer 发 送 的 操作 日 志 后 ， 调 用 
ObUpsLogMgr 类 的 slave_receive log 将 操作 日 志保 存 到 日 志 缓 神 区 中 。 


备 UpdateServer 可 以 配置 成 不 等 待 (WAIT_NONE) 、 等 竺 提 区 到 
MemTable (WAIT_COMMIT) 或 者 等 待 提交 到 MemTable 且 写 入 磁盘 

(WAIT_FLUSH) 。 男 外 ， 备 UpdateServer 有 专门 的 日 志 回 放 线 程 不 断 
地 调用 ObUpsLogMgr 中 的 replay_log 范 数 获取 并 回放 操作 日 志 。 


备 UpdateServer 执 行 replay_log 范 数 时 ， 首 先 调用 ObReplayLogSrc 的 
get_log 函 数 读 取 一 批 待 回放 的 操作 日 志 ， 接 着 ， 将 操作 日 志 应 用 到 
MemTable 中 并 写 入 日 志文 件 持久 化 。Get_log 了 芳 数 执行 时 首先 查看 本 机 
的 日 志 缓 冲 区 ， 如 果 缓 冲 区 中 不 存在 日 志 起 始点 (start_cursor) 开始 的 
操作 日 志 ， 那 么 ， 生 成 一 个 异步 任务 ， 读 取 主 UpdateServer。 一 般 情况 
下 ，slave_receive_log 接 收 的 日 志 刚 加 入 日 志 缓 冲 区 束 补 get_log 读 走 

了 ， 不 需要 读 取 主 UpdateServer 。 


9.4 ChunkServer 实 现 机 制 


ChunkServer 用 于 存储 基线 数据 ， 它 由 如 下 基本 部 分 组 成 : 


e 管 理子 表 ， 主 动 实现 子 表 分 裂 ， 配 合 RootServer 实 现 子 表 迁 移 、 删 


除 、 合 并 ; 


eSSTable， 根 据 主 键 有 序 存储 每 个 子 表 的 基线 数据 ; 


e 基 于 LRU 实 现 块 缓存 (Block cache) 以 及 行 缓存 (Row cache) ; 


e 实 现 Direct IO ， 和 磁盘 IO 与 CPU 计算 并 行 化 ; 


e 通 过 定期 合并 多 数据 分 发 获取 UpdateServer 的 冻结 数据 ， 从 而 分 散 到 


个 集群 。 


中 


每 台 ChunkServer 服 务 着 儿 和 于 到 几 万 个 子 表 的 基线 数据 ， 每 个 了 于 表 由 知 
于 个 SSTable 组 成 (一 般 为 1 个 ) 。 下 面 从 SSTable 开 始 介绍 ChunkServer 
的 内 部 实现 。 


9.4.1 子 表 管 理 


每 台 ChunkServer 服 务 于 多 个 子 表 ， 子 表 的 个 数 一 般 在 10000 一 100000 之 
间 。Chunk-Server 内 部 通过 ObMultivVersionTabletImage 来 存储 每 个 子 表 
的 索引 信息 ， 包 括 数据 行 数 (row_count) ， 数 据 量 (occupy_size) ， 
校 验 和 (check_sum) ， 包 含 的 SSTable 列 表 ， 所 在 人 磁盘 编号 

(disk_no) 等 ， 代 码 如 下 : 


class ObMultiVersionTabletImage 


public: 
// 获 取 第 一 个 包含 指 定数 据 范 围 的 子 表 
/G@param[injrange 数 据 苑 


//@param[in]scan_direction 正 向 扫描 (默认 ) 还 是 逆向 扫描 


//@paraml[in]version 子 表 的 版 本 号 


/@param[outjtablet 获 取 的 子 表 索 引 结构 


int acquire_tablet(const ObDNewRange Srange,const ScanDirection 


scan_direction,const int64_t version,ObTablet* &tablet)const; 
/释放 一 个 子 表 

int release_tablet(ObTablet*tablet); 

/新 增 一 个 子 表 ，load_sstable 表 示 是 否 立 即 加 载 其 中 的 SSTable 文 件 
int add_tablet(ObTablet*tablet,const bool load_sstable=false); 


/每 日 合并 后 升级 子 表 到 新 版 本 ，1load_sstable 表 示 是 否 立 即 加 载 新 版 本 
的 SSTable 文 件 


int upgrade_tablet(ObTablet*old_tablet,ObTablet*new_tablet,const bool 


load_sstable=false); 


// 每 日 合并 后 升级 子 表 到 新 版 本 ， 且 子 表 发 生 分 忽 ， 有 一 个 变 成 多 
load_sstable 表 示 是 否 立 即 加 载 分 裂 后 的 SSTable 文 件 


int upgrade_tablet(ObTabjlet*old_tablet,ObTablet*new_tablets[]，const 


int32_t split_size,const bool load_sstable=false); 


/删除 一 个 指定 数据 范围 和 版 本 的 子 表 
int remove_tablet(const ObDNewRange range,const int64_t version); 
/删除 一 个 表格 对 应 的 所 有 子 表 


int delete_table(const uint64_t table_id); 


/获取 下 一 批 需要 进行 每 日 合并 的 子 表 


//@paraml[in]version 子 表 的 版 本 号 


//@param[out]jsize 下 一 批 需要 进行 每 日 合并 的 子 表 个 数 


/G@param[outjtablets 下 一 批 需要 进行 每 日 合并 的 子 表 索 引 结构 


int get_tablets_for_merge(const int64_t version,int64_tzsize,ObTablet* 


tabjets[])const; 
}; 


ChunkServer 维 护 了 多 个 版 本 的 子 表 数 据 ， 每 日 合并 后 升级 于 表 的 版 本 
号 。 如 有 果子 表 发 生 分 裂 ， 每 日 合并 后 将 由 一 个 子 表 变 成 多 个 子 表 。 子 
表 相 关 的 操作 方法 包括 : 


1) add tablet:， 新 增 一 个 子 表 。 如 果 load _sstable 参 数 为 true， 那 么 ， 立 
即 加 载 其 中 的 SSTable 文 件 。 和 否则， 使 用 延迟 加 载 案 略 ， 即 读 取 子 表 时 


再 加 载 其 中 的 SSTable。 


2) remove tablet: 删除 一 个 子 表 。RootServer 发 现 某 个 子 表 的 副本 数 过 
多 ， 则 会 通知 其 中 某 台 ChunkServer 删 除 指定 的 子 表 。 


3) delete_table: 删除 表格 。 用 户 执行 删除 表格 命令 时 ，RootServer 会 通 
知 每 台 ChunkServer 删 除 表格 包含 的 所 有 于 表 。 


4) upgrade_tablet: 每 日 合并 后 升级 子 表 的 版 本 号 。 如 果 没 有 发 生 分 
裂 ， 只 需要 将 老子 表 的 版 本 号 加 1; 否则 ， 将 老子 表 替 换 为 多 个 范围 连 
续 的 新 子 表 ， 每 个 新 子 表 的 版 本 号 均 为 老子 表 的 版 本 号 加 1。 

5) acquire_tablet/release_tablet: 读 取 时 首先 调用 acquire_tablet 获 取 一 个 


子 表 ， 增 加 该 子 表 的 引用 计数 从 而 防止 它 在 读 取 过 程 中 被 释放 掉 ， 接 
着 读 取 其 中 的 SSTable， 最 后 调用 release_tablet 释 放 子 表 。 


6) get_tablets_for_merge: 每 日 合并 时 通过 调用 该 芳 数 获取 下 一 批 需要 
进行 每 日 合并 的 子 表 。 


9.4.2 SSTable 


如 图 9-8 所 示 ，SSTable 中 的 数据 按 主键 排序 后 存放 在 连续 的 数据 块 
(Block) 中 ，Block 之 间 也 有 序 。 接 着 ， 存 放 数 据 块 索引 (Block 
Index) ， 由 每 个 Block 最 后 一 行 的 主键 (End Key) 组 成 ， 用 于 数据 查 


询 中 的 Block 定 位 。 接 着 ， 存 放 布 隆 过 滤器 (Bloom Filter) 和 表格 的 
Schema 信息 。 最 后 ， 存 放 固 定 大 小 的 Trailer 以 及 Trailer 的 偏 移 位 置 。 


Magic Num 
Row Index Offset 
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Column Group ID 
‘A SSTable Block Header - 
’ 


Data zLength Row0 - 
a | Row1Offiset 
Row 1 Offiset 
Data Block 1 
Row N Offset Column Id(optinal) 
| | Block Index Column Value 
Data Block N Record Header 


Block Index Heade 
Block Index Column Group ID 
Block Index 0 
Bloom Filter Table ID 


Version e 
3 # Row Count 


bm 


Biocle Tae Block Record Size 


Table Schema 
snd kev | Block End Key Size | End Key Size 
Fixed Trailer Block Index N End key 0 
End key 1 
Trailer Offset End keys Stream 


End key N 


图 9-8 SSTable 格 式 


查找 SSTable 时 ， 首 先 从 子 表 的 索引 信息 中 读 取 SSTable Trailer 的 偏 移 位 
置 ， 接 着 获取 Trailer 信 息 。 根 据 Trailer 中 记录 的 信息 ， 可 以 获取 块 索引 
的 天 小 和 侦 移 ， 从 而 将 整个 块 索引 加 载 到 内 存 中 。 根 据 块 索引 记录 的 

每 个 Block 的 最 后 一 行 的 主键 ， 可 以 通过 二 分 查找 定位 到 查找 的 Block 。 


最 后 将 Block 加 载 到 内 存 中 ， 通 过 二 分 查找 Block 中 记录 的 行 索 3| (Row 
Index) 查找 到 具体 某 一 行 。 本 质 上 看 ，SSTable 是 一 个 两 级 索引 结构 : 
块 索 引 以 及 行 索 引 ; 而 整个 ChunkServer 是 一 个 三 级 索引 结构 ， 子 表 索 
引 、 块 索引 以 及 行 索 引 。 


SSTable 分 为 两 种 格式 : 黎 踊 格式 以 及 稠密 格式 。 对 于 黎 芷 格式 ， 某 些 
列 可 能 存在 ， 也 可 能 不 存在 ， 因 此 ， 每 一 行 只 存储 包含 实际 值 的 列 ， 

每 一 列 存储 的 内 容 为 ，< 列 ID， 列 值 > 《< Column ID,Column Value 

> ) ; 而 稠密 格式 中 每 一 行 都 需要 存储 所 有 列 ， 每 一 列 只 需要 存储 列 
值 ， 不 需要 存储 列 ID ， 这 是 因为 列 ID 可 以 从 表格 Schema 中 获取 。 


例 9-4 假设 有 一 张 表 格 包 含 10 列 ， 列 ID 为 1 一 10， 表 格 中 有 一 行 的 数据 
内 容 为 : 


那么 ， 如 果 采 用 稀疏 格式 存储 ， 内 容 为 : <2, 20>，<3, 30>，< 
5，50>，<7，70> ，<8，80> ; 如 果 采 用 稠密 格式 存储 ， 内 容 为 : 
null, 20,，30, null, 50, null, 70, 80, null,null° 


ChunkServer 中 的 SSTable 为 稠密 格式 ， 而 UpdateServer 中 的 SSTable 为 稀 
玖 格式 ， 且 存储 了 多 张 表格 的 数据 。 男 外 ，SSTable 支 持 列 组 (Column 
Group) ， 将 同一 个 列 组 下 的 多 个 列 的 内 容 存 储 在 一 块 。 列 组 是 一 种 行 


列 混合 存储 模式 ， 将 每 一 行 的 所 有 列 分 成 多 个 组 〈 称 为 列 组 ) ， 每 个 
列 组 内 部 按 行 存 储 。 


如 图 9-9 所 示 ， 当 一 个 SSTable 中 包含 多 个 表格 / 列 组 时 ， 数 据 按照 [表格 
ID， 列 组 ID， 行 主键 ] ([table_id,column group id,row_key]) 的 形式 有 
序 存储 。 


Data Blocks Record Header 
able SSTable Block Header 
Column Group 0 1 
Column Group N DaaBlok N | Rew 


Column Group 0 
Column Group 1 1 
Column Group N I 


图 9-9 SSTable 包 含 多 个 表格 / 列 组 


另外 ，SSTable 文 持 压 缩 功 能 ， 压 缩 以 Block 为 单位 。 每 个 Block 写 入 磁 
一 之 前 调用 压缩 算法 执行 压缩 ， 读 取 时 需要 解压 缩 。 用 户 可 以 自 定 义 
SSTable 的 压缩 算法 ， 目 前 文 持 的 算法 包括 LZO 以 及 Snappy。 


SSTable 的 操作 接口 分 为 写 入 和 读 取 两 个 部 分 ， 其 中 ， 写 入 类 为 
ObSSTableWriter， 读 取 类 为 ObSSTableGetter (随机 读 取 ) 和 
ObSSTableScanner (范围 查询 ) 。 代 人 码 如 下 : 


class ObSSTableWriter 


public: 

// 创 建 SSTable 

//@param[in]schema 表 格 schema 信 息 

//@paraml[in]path SSTable 在 磁盘 中 的 路 径 名 
/Oparam[in]compressor_name 压 缩 算法 名 
/@param[in]jstore type SSTable 格 式 ， 稀 疏 格 式 或 者 稠密 格式 
//@param[in]block_size 块 大 小 ， 默 认 64KB 


int create_sstable(const ObSSTableSchema& schema,const ObString& 
path,const ObString& compressor_name,const int store_type,const int64_t 


block_size); 


// 往 SSTable 中 追加 一 行 数据 


//@param[in]row 一 行 SSTable 数 据 
/G@param[outjspace_usage 仍 加 完 这 一 行 后 SSTable 大 致 占用 的 磁 表 空 间 
int append_row(const ObSSTableRow Crow,int64_t&space_usage); 


/关闭 SSTable， 将 往 磁 盘 中 写 入 Block Index,Bloom FilterSchema,Trailer 


徐 位 
等 信 已 


//@param[out]jtrailer_offset 返 回 SSTable 的 Trailer 偏 移 量 


int close_sstable(int64 _t&trailer_offset); 


一 一 
人 


定期 合并 多 数据 分 发 过 程 将 产生 新 的 SSTable， 步 又 如 下 : 
1) 调用 create_sstable 函 数 创建 一 个 新 的 SSTable; 

2) 不 断 调 用 append_row 范 数 往 SSTable 中 追加 一 行 行 数据 ; 
3) 调用 close_sstable 完 成 SSTable 写 入 。 


与 9.2.1 节 中 的 MemTablelterator 一 样 ，ObSSTableGetter 和 
ObSSTableScanner 实 现 了 迭代 需 接 口 ， 通 过 它 可 以 不 断 地 获取 SSTable 
的 下 一 个 cell 。 


class OblIterator 


public: 

/迭代 需 移 动 到 下 一 个 cell 
int next_cell(); 

/获取 当前 cell 的 内 容 


/G@param[outjcell_info 当 前 cell 的 内 容 ， 包 括 表 名 (table id) ， 行 主键 
(row_key) ， 列 编号 (column_id) 以 及 列 值 (column_value) 


int get_cell(ObCellInfo**cell_info); 

// 获 取 当 前 cell 的 内 容 

//@param[outjcell_info 当 前 cell 的 内 容 

//@param is_row_changed 是 人 否 从 代 到 下 一 行 

int get_cell(ObCellInfo**cell_info,bool*is_row_changed); 


}; 


OceanBase 读 取 的 数据 可 能 来 源 于 MemTable， 也 可 能 来 源 于 SSTable， 
或 者 是 合并 多 个 MemTable 和 多 个 SSTable 生 成 的 结果 。 无 论 瓜 层 数据 来 
源 如 何 变化 ， 上 层 的 读 取 接 口 总 是 ObIterator 。 


9.4.3 缓存 实现 


ChunkServer 中 包含 三 种 缓存 ; 块 缓存 (Block Cache) 、 行 缓存 (Row 
Cache) 以 及 块 索引 缓存 (Block Index Cache) 。 其 中 ， 块 缓存 中 存储 
了 SSTable 中 访问 较 热 的 数据 块 (Block) ， 行 缓存 中 存储 了 SSTable 中 
访问 较 热 的 数据 行 (Row) ， 而 块 索引 缓存 中 存储 了 最 近 访 问 过 的 
SSTable 的 块 索引 (Block Index) 。 一 般 来 说 ， 块 索引 不 会 太 大 ， 
ChunkServer 中 所 有 SSTable 的 块 索引 都 是 常 驻 内 存 的 。 不 同 缓存 的 底层 
采用 相同 的 实现 方式 。 


1. 故 层 实 现 


经 典 的 LRU 缓 存 实现 包含 两 个 部 分 ， 哈 希 表 和 LRU 链 表 ， 其 中 ， 哈 希 
表 用 于 查找 缓存 中 的 元 素 ，LRU 链 表 用 于 淘汰 。 每 次 访问 LRU 缓 存 
时 ， 需 要 将 被 访问 的 元 素 移动 到 LRU 链 表 的 头 部 ， 从 而 避免 被 很 快 淘 
状 ， 这 个 过 程 需要 锁 住 LRU 链 表 。 


如 图 9-10 所 示 ， 块 缓存 和 行 缓存 底层 都 是 一 个 Key-Value Cache， 实 现 步 
又 如 下 : 


memblockl memblock2 


hashtable 


图 9-10 Key-Value Cache 的 实现 


1) OceanBase 一 次 分 配 1MB 的 连续 内 存 块 〈 称 为 memblock) ， 每 个 
memblock 包 含 若 干 缓存 项 (item) 。 添 加 item 时 ， 只 需要 简单 地 将 item 
追加 到 memblock 的 尾部 ， 男 外 ， 绥 存 淘汰 以 memblock 为 单位 ， 而 不 是 
以 item 为 单位 。 


2) OceanBase 没 有 维护 LRU 链 表 ， 而 是 对 每 个 nemblock 都 维护 了 访问 
次 数 和 最 近 频 党 访问 时 间 。 访 问 memblock 中 的 item 时 将 增加 memblock 
的 访问 次 数 ， 如 果 最 近 一 段 时 间 之 内 的 访问 次 数 超过 一 定 值 ， 那 么 ， 
更 新 最 近 频 繁 访问 时 间 ; 淘汰 memblock 时 ， 对 所 有 的 memblock 按 照 最 


近 频 党 访问 时 间 排 序 ， 淘 汰 最 近 一 段 时 间 访 问 较 少 的 memblock。 可 以 
看 出 ， 读 取 时 只 需要 更 新 memblock 的 访问 次 数 和 最 近 频 繁 访问 时 间 ， 
不 需要 移动 LRU 链 表 。 这 种 实现 方式 通过 牺牲 LRU 算 法 的 精确 性 ， 来 
规避 LRU 链 表 的 全 局 锁 促 突 。 


3) 每 个 memblock 维 护 了 引用 计数 ， 读 取 缓 存 项 时 所 在 memblock 的 引 
用 计数 加 1， 淘 汰 memblock 时 引用 计数 减 1， 引 用 计数 为 0 时 memblock 
可 以 回收 重用 。 通 过 引用 计数 ， 实 现 读 取 memblock 中 的 缓存 项 不 加 
锁 。 


2. 惊 群 效 应 


以 行 缓存 为 例 ， 假 设 ChunkServer 中 有 一 个 热点 行 ，ChunkServer 中 的 N 
个 工作 线程 〈 假 设 为 N=50) 同时 发 现 这 一 行 的 缓存 失效 ， 于 是 ， 所 有 
工作 线程 同时 读 取 这 行 数 据 并 更 新 行 缓存 。 可 以 看 出 ，N-1 共 49 个 线程 
不 仅 做 了 无 用 功 ， 还 增加 了 锁 冲 突 。 这 种 现象 称 为 “ 惊 群 效应 ”。 为 了 
解决 这 个 问题 ， 第 一 个 线程 发 现行 缓存 失效 时 会 往 缓存 中 加 入 一 个 fake 
标记 ， 其 他 线程 发 现 这 个 标记 后 会 等 待 一 段 时 间 ， 直 到 第 一 个 线程 从 
SSTable 中 读 到 这 行 数据 并 加 入 到 行 缓存 后 ， 再 从 行 缓存 中 读 取 。 


算法 搬 述 如 下 : 


调用 internal_get 读 取 一 行 数据 ; 


if( 行 不 存在 ){ 

调用 internal_set 往 缓存 中 加 入 一 个 fake 标 记 ; 

从 SSTable 中 读 取 数据 行 ; 

将 SSTable 中 读 到 的 行内 容 加 入 缓存 ， 清 除 fake 标 记 ， 唤 醒 等 待 线程 ; 
返回 读 到 的 数据 行 ; 

}else if( 行 存在 且 为 fake 标 记 ) 

{ 

线程 等 待 ， 直 到 清除 fake 标 记 ; 

过 (等 待 成 功 ) 返 回 行 缓存 中 的 数据 ; 


if 等 待 超时 ) 返 回 读 取 超 时 |; 


else 


退回 行 缓存 中 的 数据 ; 


} 
3. 绥 存 预 热 


ChunkServer 定 期 合并 后 需要 使 用 生成 的 新 的 SSTable 提 供 服务 ， 如 果 大 
量 请 求 同 时 读 取 新 的 SSTable 文 件 ， 将 使 得 ChunkServer 的 服务 能 力 在 切 
换 SSTable 瞬 间 大 幅 下 降 。 因 此 ， 这 里 需要 一 个 缓存 预 热 的 过 程 。 
OceanBase 最 初 的 版 本 实现 了 主动 缓存 预 热 ， 即 : 扫描 原来 的 缓存 ， 根 
据 每 个 缓存 项 的 key 读 取 新 的 SSTable 并 将 结果 加 入 到 新 的 缓存 中 。 例 
如 ， 原 来 缓存 数据 项 的 主键 分 别 为 100、200、500， 那 么 只 需要 从 新 的 
SSTable 中 读 取 主 键 为 100、200、500 的 数据 并 加 入 新 的 缓存 。 扫 描 完 成 
后 ， 原 来 的 缓存 可 以 丢弃 。 


线 上 运行 一 段 时 间 后 发 现 ， 定 期 合并 基本 上 都 安排 在 次 晨 业 务 低 峰 
期 ， 合 并 完成 后 OceanBase 集 群 收 到 的 用 户 请 求 总 是 由 少 到 多 (早上 7 
点 之 前 请 求 很 少 ，9 点 以 后 请 求 逐 步 增多 ) ， 能 够 很 自然 地 实现 被 动 缓 
存 预 热 。 由 于 ChunkServer 在 主动 缓存 预 热 期 间 需要 占用 两 倍 的 内 存 ， 
因此 ， 目 前 的 线 上 版 本 放弃 了 这 种 方式 ， 转 而 采用 被 动 级 存 预 热 。 


9.4.4 IO 实现 


OceanBase 没 有 使 用 操作 系统 本 身 的 页 面 缓存 (page cache) 机 制 ， 而 
是 自己 实现 缓存 。 相 应 地 ，IO 也 采用 Direct 10 实现， 并 且 支 持 人 磁盘 IO 
与 CPU 计算 并 行 化 。 


ChunkServer 采 用 Linux 的 Libaio[H] 实 现 异 步 IO0， 并 通过 双 绥 冲 区 机 制 实 
现 磁 醒 预 读 与 CPU 处 理 并 行 化 ， 实 现 步骤 如 下 : 


1) 分 配 当 前 (current) 以 及 预 读 (ahead) 两 个 缓冲 区 


2) 使 用 当前 缓冲 区 读 取 数据 ， 当 前 缓冲 区 通过 Libaio 发 起 异步 读 取 请 
求 ， 接 着 等 待 异 步 读 取 完 成 ; 


3) 异步 读 取 完 成 后 ， 将 当前 缓冲 区 返回 上 层 执行 CPU 计算 ， 同 时 ， 原 
来 的 预 读 缓冲 区 变 为 新 的 当前 缓冲 区 ， 发 送 异步 读 取 请 求 将 数据 读 取 
到 新 的 当前 缓冲 区 。CPU 计 算 完 成 后 ， 原 来 的 当前 缓冲 区 变 为 空间 ， 
成 为 新 的 预 谈 缓冲 区 ， 用 于 下 一 次 预 谈 。 


4) 重复 步骤 3) ， 直 到 所 有 数据 全 部 读 完 。 


例 9-5 假设 需要 读 取 的 数据 范围 为 (1，150]， 分 三 次 读 取 : (1，50]， 
(50，100]， 《100，150]， 当 前 和 预 读 缓冲 区 分 别 记 为 A 和 B。 实 现 步 
又 如 下 : 


1) 发 送 异 步 请 求 将 〈1，50] 读 取 到 缓冲 区 A， 等 待 读 取 完 成 ; 


2) 对 缓冲 区 A 执 行 CPU 计算 ， 发 送 异 步 请 求 ， 将 (50，100] 读 取 到 组 
冲 区 了 B; 


3) 如 果 CPU 计 算 先 于 磁盘 读 取 完成 那么， 缓冲 区 A 变 为 空 闻 ， 等 到 
(50，100] 读 取 完 成 后 将 缓冲 区 B 返 回 上 层 执行 CPU 计 算 ， 同时， 发 送 
异步 请 求 ， 将 (100，150] 读 取 到 缓冲 区 A; 


4) 如 果 人 磁盘 读 取 先 于 CPU 计算 完成 ， 那 么 ， 首 移 等 待 缓冲 区 A 上 的 
CPU 计算 完成 ， 接 着 ， 将 缓冲 区 B 返 回 上 层 执行 CPU 计算 ， 同 时 ， 发 送 
异步 请 求 ， 将 (100，150] 读 取 到 缓冲 区 A: 


5) 等 待 (100，150] 读 取 完 成 后 ， 将 缓冲 区 A 返回 给 上 层 执行 CPU 计 
es 


双 绥 冲 区 广泛 用 于 生产 者 /消费 者 模型 ，ChunkServer 中 使 用 了 双 绥 冲 区 
异步 预 读 的 技术 ， 生 产 者 为 磁盘 ， 消 费 者 为 CPU， 和 磁盘 中 生产 的 原始 
数据 需要 给 CPU 计算 消费 掉 。 


所 谓 “ 双 缓冲 区 ”， 顾 名 思 义 就 是 两 个 缓冲 区 (简称 A 和 B) 。 这 两 个 组 
冲 区 ， 总 是 一 个 用 于 生产 者 ， 男 一 个 用 于 消费 者 。 当 两 个 缓冲 区 都 操 
作 完 ， 再 进行 一 次 切换 ， 先 前 被 生产 者 写 入 的 被 消费 者 读 取 ， 先 前 消 
费 首 读 取 的 转 为 生产 着 写 入 。 为 了 做 到 不 冲突 ， 给 每 个 缓 促 区 分 配 一 
把 互 不 锁 (简称 La 和 Lb) 。 生 产 者 或 者 消费 者 如 果 要 操作 某 个 缓冲 
区 ， 必 须 先 拥有 对 应 的 互 不 锁 。 


双 缓 冲 区 包括 如 下 几 种 状态 : 


e 双 缓冲 区 都 在 使 用 的 状态 〈 并 发 读 写 ) 。 大 多 数 情 况 下 ， 生 产 者 和 消 
费 者 都 处 于 并 发 读 写 状态 。 不 妨 设 生 产 者 写 入 A， 消 费 者 读 取 B。 在 这 
种 状态 下 ， 生 产 者 拥有 锁 La; 同样 地 ， 消 费 者 拥有 锁 Lb。 由 于 两 个 缓 
冲 区 都 是 处 于 独占 状态 ， 因 此 每 次 读 写 缓冲 区 中 的 元 素 都 不 需要 再 进 
行 加 锁 、 解 山 操 作 。 这 二 万 约 开销 的 主要 来 源 。 


e 单 个 缓冲 区 空闲 状态 。 由 于 两 个 并 发 实体 的 速度 会 有 差异 ， 必 然 会 出 
现 一 个 缓冲 区 已 经 操作 完 ， 而 男 一 个 尚未 操作 完 。 不 妨 假 设 生产 者 快 
于 消费 者 。 在 这 种 情况 下 ， 当 生产 者 把 A 写 满 的 时 候 ， 生 产 者 要 先 释 放 
La (表示 它 已 经 不 再 操作 A) ， 然 后 尝试 获取 Lb。 由 于 B 还 没有 被 读 

空 ，Lb 还 被 消费 者 持 有 ， 所 以 生产 者 进入 等 待 (wait) 状态 。 


e 级 冲 区 的 切换 。 过 了 大 干 时 间 ， 消 费 者 终于 把 B 读 完 。 这 时 候 ， 消 费 
者 也 要 先 释放 Lb， 然 后 尝试 获取 La。 由 于 La 刚才 已 经 被 生产 者 释放 ， 
所 以 消费 者 能 立即 拥有 La 并 开始 读 取 A 的 数据 。 而 由 于 Lb 被 消费 者 释 
放 ， 所 以 刚才 等 待 的 生产 者 会 苏醒 过 来 (wakeup) 并 拥有 Lb， 然 后 生 
产 者 继续 往 B 写 入 数据 。 


[1]Oracle 公 司 实 现 的 Linux 异 步 IJO 库 ， 开 源 地 址 : 


https://0ss.oracle.com/projects/libaio-oracle/ 


9.4.5 定期 合并 人 此 数据 分 发 


RootServer 将 UpdateServer 上 的 版 本 变化 信息 通知 ChunkServer 后 ， 
ChunkServer 将 执行 定期 合并 或 者 数据 分 发 。 


如 果 UpdateServer 执 行 了 大 版 本 冻结 ，ChunkServer 将 执行 定期 合并 。 
ChunkServer 唤 醒 若 干 个 定期 合并 线程 (比如 10 个 ) ， 每 个 线程 执行 如 
下 流程 : 


1) 加 锁 获取 下 一 个 需要 定期 合并 的 子 表 ; 
2) 根据 子 表 的 主键 范围 读 取 UpdateServer 中 的 修改 操作 : 


3) 将 每 行 数据 的 基线 数据 和 增 量 数据 合并 后 ， 产 生 新 的 基线 数据 ， 并 
写 入 到 新 的 SSTable 中 ; 


4) 更 改 子 表 索 引信 息 ， 指 向 新 的 SSTable。 


等 到 ChunkServer 上 所 有 的 子 表 定期 合并 都 执行 完成 后 ，ChunkServer 会 
癌 RootServer 汇 报 ，RootServer 会 更 新 RootIable 中 记录 的 子 表 版 本 信 
已。 定期 合并 一 般 安 排 在 每 天 凌晨 业务 低 峰 期 (凌晨 1:00 开 始 ) 执行 一 
次 ， 因 此 也 称 为 每 日 合并 。 另 外 ， 定 期 合并 过 程 中 ChunkServer 的 压力 
比较 大 ， 需 要 控制 合并 速度 ， 否 则 可 能 影响 正常 的 读 取 服 务 。 


如 果 UpdateServer 执 行 了 小 版 本 冻结 ，ChunkServer 将 执行 数据 分 发 。 与 
定期 合并 不 同 的 是 ， 数 据 分 发 只 是 将 UpdateServer 冻 结 的 数据 缓存 到 


ChunkServer， 并 不 会 生成 新 的 SSTable 文 件 。 因 此 ， 数 据 分 发 对 
ChunkServer 造 成 的 压力 不 大 。 


数据 分 发 由 外 部 读 取 请 求 驱动 ， 当 请 求 ChunkServer 上 的 某 个 子 表 时 ， 
除了 返回 使 用 者 需要 的 数据 外 ， 还 会 在 后 台 生 成 这 个 子 表 的 数据 分 发 
任务 ， 这 个 任务 会 获取 UpdateServer 中 冻结 的 小 版 本 数据 ， 并 缓存 在 
ChunkServer 的 内 存 中 。 如 果 内 存 用 完 ， 数 据 分 发 任务 将 不 再 进行 。 当 
然 ， 这 里 可 以 做 一 些 改 进 ， 比 如 除了 将 UpdateServer 分 发 的 数据 存放 到 
ChunkServer 的 内 存 中 ， 还 可 以 存储 到 SSD 做 盘 中 。 


例 9-6 假设 某 台 ChunkServer 上 有 一 个 子 表 t1，t1 的 主键 范围 为 〈1， 
10]， 只 有 一 行 数据 : rowkey=8=> (<2, update,20>，<3,， 
update，30> ，<4，update，40> ) 。UpdateServer 的 冻结 版 本 有 两 行 
更 新 操作 : rowkey=8=> (<2, update, 30>>，<3,， up-date，38>) 
和 rowkey=20=> (<4, update, 50>) 


e 如 果 是 大 版 本 冻结 ， 那 么 ，ChunkServer 上 的 子 表 t1 执 行 定 期 合并 后 结 
果 为 : ro-wkey=8=> (<2, update, 30>，<3, update, 38>>，< 
4, update, 40>); 


e 如 果 是 小 版 本 冻结 ， 那 么 ，ChunkServer 上 的 子 表 t1 执 行 数据 分 发 后 的 
结果 为 : rowkey=8=> (<2, update, 20>,，<3, update, 30>，< 


4, update, 40>, <2, update, 30>, <3, update, 38>) 


9.4.6 定期 合并 限 速 


定期 合并 期 间 系统 的 压力 较 大 ， 需 要 控制 定期 合并 的 速度 ， 避 免 影响 
正 香 服务 。 定 期 合并 限 速 的 措施 包括 如 下 步 又 : 


1) ChunkServer: ChunkServer 定 期 合并 过 程 中 ， 每 合并 完成 若干 行 
(默认 2000 行 ) 数据 ， 就 查看 本 机 的 负载 (查看 Linux 系 统 的 Load 

值 ) 。 如 果 负 载 过 高 ， 一 部 分 定期 合并 线程 转 入 休 眼 状态 ;如 果 人 负载 
过 低 ， 唤 醒 更 多 的 定期 合并 线程 。 另 外 ，RootServer 将 UpdateServer 床 
结 的 大 版 本 通知 所 有 的 ChunkServer， 每 台 ChunkServer 会 随机 等 每 一 段 
时 间 再 开始 执行 定期 合并 ， 防 止 所 有 的 ChunkServer 同 时 将 大 量 的 请 求 
发 给 UpdateServer 。 


2) UpdateServer: 定期 合并 过 程 中 ChunkServer 需 要 从 UpdateServer 读 取 
大 量 的 数据 ， 为 了 防止 定期 合并 任务 用 满 带 宽 而 阻塞 用 户 的 正常 请 
求 ，UpdateServer 将 任务 区 分 为 高 优先 级 〈 用 户 正常 请 求 ) 和 低 优先 级 
(定期 合并 任务 ) ， 并 单独 统计 每 种 任务 的 输出 人 带宽。 如果 低 优先 级 
任务 的 输出 带宽 超过 上 限 ， 降 低 低 优先 级 任务 的 处 理 速 度 ， 反之 ， 适 
当 提 高 低 优先 级 任务 的 处 理 速 度 。 


如 采 OceanBase 部 署 了 两 个 集群 ， 还 能 够 文 持 主 备 集群 在 不 同时 间 段 进 
行 “ 错 峰 合 并 ”， 一 个 集群 执行 定期 合并 时 ， 把 全 部 或 大 部 分 读 写 流量 


切 到 另 一 个 集群 ， 该 集群 合并 完成 后 ， 把 全 部 或 大 部 分 流量 切 回 ， 以 


便 另 一 个 集群 接着 进行 定期 合并 。 两 个 集群 都 合并 完成 后 ， 恢 复 正 党 


的 流量 分 配 。 


9.5 消除 更 新 瓶颈 


UpdateServer 单 点 看 起 来 像 是 OceanBase 架 构 的 软肋 ， 然 而 ， 经 过 
OceanBase 团 队 持续 不 断 地 性 能 优化 以 及 芝 路 导入 功能 的 开发 ， 单 点 的 
架构 在 实践 过 程 中 经 党 住 了 线 上 考 难 。 每 年 淘 军 网 “ 双 十 一 ?光棍 克 ， 
OceanBase 系 统 都 承载 着 核心 的 数据 库 业 务 ， 系 统 访问 量 出 现 5 到 10 售 
的 增长 ， 而 OceanBase 只 需 简 单 地 增加 机 器 即 可 。 


当然 ，UpdateServer 单 点 架构 并 不 是 不 可 突破 。 里 然 目 前 UpdateServer 
单 点 架构 还 不 是 瓶颈 ， 但 是 OceanBase 系 统 设 计时 已 经 留 好 了 “后 门 ”， 
以 后 可 以 通过 对 系统 打 补 丁 的 方式 文 持 UpdateServer 线 性 扩展 。 当 然 ， 
这 里 可 能 会 做 一 些 牺牲 ， 比 如 短期 内 和 暂 不 支持 全 局 事务 ， 只 支持 针对 
单个 用 户 的 事务 操作 。 


本 六 首先 回顾 OceanBase 已 经 实现 的 优化 工作 ， 包 括 读 写 性 能 优化 以 及 
旁 路 导入 功能 ， 接 着 介绍 一 种 数据 分 区 实现 UpdateServer 线 性 扩展 的 方 


法 3 


9.5.1 读 瑟 优化 回顾 


OceanBase UpdateServer 相 当 于 一 个 内 存 数据 库 ， 其 架构 设计 和 “世界 上 
最 快 的 内 存 数据 库 ”"”MemSQL 比 较 类 似 ， 能 够 支持 每 秒 数 百 万 次 单行 读 
写 操作 ， 这 样 的 性 能 对 于 目前 关系 数据 库 的 应 用 场景 都 是 足够 的 。 为 
了 达到 这 样 的 性 能 指标 ， 我 们 已 经 完成 或 正在 进行 的 工作 如 下 。 


1. 网 络 框 染 优 化 


9.2.2 节 中 提 到 ， 如 果 不 经 过 优化 ， 单 机 每 秒 最 多 能 够 接收 的 数据 包 个 
数 只 有 10 万 个 左右 ， 而 经 过 优化 后 的 libeasy 框 架 对 于 千 兆 网 卡 每 秒 最 多 
收 包 个 数 超过 50 万 ， 对 于 万 兆 网 卡 则 超过 100 万 。 另 外 ，UpdateServer 
内 部 还 会 在 软件 层面 实现 多 块 网 卡 的 负载 均衡 ， 从 而 更 好 地 发 挥 多 网 
卡 的 优势 。 通 过 网 络 框 架 优 化 ， 使 得 单机 支持 百 万 次 操作 成 为 可 能 。 


2. 高 性 能 内 存 数据 结构 


UpdateServer 的 底层 是 一 颗 高 性 能 内 存 B 树 。 为 了 最 大 程度 地 发 挥 多 核 
的 优势 ，B 树 实现 时 大 部 分 情况 下 都 做 到 了 无 锁 (lock-free) 。 测 试 数 
据 表 明 ， 即 使 在 普通 的 16 核 机 器 上 ，OceanBase B 树 每 秒 文 持 的 单行 修 
改 操作 都 超过 150 万 次 。 


3. 写 操作 日 志 优 化 


在 软件 层面 ， 写 操作 日 志 涉 及 的 工作 主要 有 如 下 几 点 : 


1) 成 组 提交 。 将 多 个 写 操 作 素 合 在 一 起 ， 一 次 性 刷 入 磁盘 中 。 


2) 降低 日 志 缓 种 区 的 锁 冲 突 。 多 个 线程 同时 往日 志 缓冲 区 中 追加 数 
据 ， 实 现时 需要 尽 可 能 地 减少 追加 过 程 的 锁 冲 突 。 追 加 过 程 包含 两 个 
阶段 : 第 一 个 阶段 是 占 位 ， 第 二 个 阶段 是 拷贝 数据 ， 相 比较 而 言 ， 找 
贝 数据 比较 耗 时 。 实 现 的 关键 在 于 只 对 占 位 操作 互 不 ， 而 允许 多 线程 
并 发 拷贝 数据 。 例 如 ， 有 两 个 线程 ， 线 程 1] 和 线程 2， 他 们 分 别 需 要 往 
缓冲 区 退 加 大 小 为 100 字 闻 和 大 小 为 300 字 节 的 数据 。 假 设 缓 冲 区 初始 
为 衬 ， 那 么 ， 线 程 1 可 以 首 允 占 住 位 置 0 一 100， 线 程 2 接着 占 住 100 一 
300。 最 后 ， 线 程 1 和 线程 2 并 发 将 数据 拷贝 到 刚才 占 住 的 位 置 。 


3) 日 志文 件 并 发 写 入 。UpdateServer 中 每 个 日 志 缓 冲 区 的 大 小 一 般 为 
2MB， 如 果 写 入 太 快 ， 那 么 ， 很 快 会 产生 多 个 日 志 缓冲 区 需要 刷 入 磁 
盘 ， 可 以 并 发 地 将 这 些 日 志 缓 冲 区 刷 入 不 同 的 磁 一 。 当 然 ， 
UpdateServer 目 前 并 没有 实现 2 和 3 这 两 个 优化 点 。 在 便 件 层面 ， 
UpdateServer 机 器 需要 配置 较 好 的 RAID 卡 。 这 些 RAID 卡 目 带 缓存 ， 而 
且 容 量 比较 大 (例如 1GB) ， 从 而 进一步 提升 写 磁盘 性 能 。 


4. 内 存 容量 优化 


随 着 数据 不 断 写 入 ，UpdateServer 的 内 存 容量 将 成 为 瓶 贷 。 因 此 ， 有 两 
种 解决 思路 。 一 种 思路 是 精心 设计 UpdateServer 的 内 存 数据 结构 ， 尽 可 
能 地 万 省 内 存 使 用 ， 另 外 一 种 思路 天 是 将 UpdateServer 内 存 中 的 数据 很 
快 地 分 发 出 去 。 


OceanBase 实 现 了 这 两 种 思路 。 百 先 ，UpdateServer 会 将 内 存 中 的 数据 
编码 为 精心 设计 的 格式 ， 从 9.3.1 节 中 可 以 看 出 ，100 以 内 的 64 位 整数 在 
内 存 中 只 需要 占用 两 个 字 节 。 这 种 编码 格式 不 仅 能 够 有 效 地 减少 内 存 
占用 ， 而 且 往 往 使 得 CPU 缓存 能 够 容纳 更 多 的 数据 ， 从 而 弥补 编码 和 
解码 操作 造成 的 性 能 损失 。 男 外 ， 当 UpdateServer 的 内 存 使 用 量 到 达 一 
定 大 小 时 ，OceanBase 会 目 动 触发 数据 分 发 操作 ， 将 UpdateServer 的 数 
据 分 发 到 集群 中 的 ChunkServer 中 ， 从 而 避免 UpdateServer 的 内 存 容量 成 
为 浇 贷 。 当 然 ， 随 着 单机 内 存 容量 变 得 越 来 越 大 ， 普 通 的 2U 服 务 絮 已 
经 具备 1TB 内 存 的 扩展 能 力 ， 数 据 分 发 也 可 能 只 是 一 种 过 渡 方 条 。 


9.5.2 数据 旁 路 导入 


虽然 OceanBase 内 部 实现 了 大 量 优化 技术 ， 但 是 UpdateServer 单 点 写 入 
对 于 某 些 OLAP 应 用 仍然 可 能 成 为 问题 。 这 些 应 用 往往 需要 定期 (例如 
每 天 ， 每 个 月 ) 导入 大 批 数据 ， 对 导入 性 能 要 求 很 高 。 为 此 ， 
OceanBase 专 门 开 发 了 旁 路 导入 功能 ， 本 世 介 绍 直接 将 数据 导入 到 
ChunkServer 中 的 方法 〈 即 ChunkServer 芝 路 导入 ) 。 


OceanBase 的 数据 按照 全 局 有 序 排列 ， 因 此 ， 和 劳 路 导入 的 第 一 步 承 是 使 
用 Hadoop MapReduce 这 样 的 工具 将 所 有 的 数据 排 好 序 ， 并 且 划 分 为 一 
个 个 有 序 的 范围 ， 每 个 范围 对 应 一 个 SSTable 文 件 。 接 着 ， 再 将 SSTable 
文件 并 行 拷贝 到 集群 中 所 有 的 ChunkServer 中 。 最 后 ， 通 知 RootServer 要 
求 每 个 ChunkServer 并 行 加 载 这些 SSTable 文 件 。 每 个 SSTable 文 件 对 应 


ChunkServer 的 一 个 子 表 ，ChunkServer 加 载 完 本 地 的 SSTable 文 件 后 会 癌 
RootServer 沪 报 ，RootServer 接 着 将 汇报 的 子 表 信息 更 狐 到 RootTable 
中 o 


例 9-7 有 4 台 ChunkServer A、B、C 和 D。 所 有 的 数据 排 好 序 后 划分 为 6 
个 范围 : r1 (0~100]、r2 (100~200]、r3 〈200~300]、r4 (300~ 
400]、r5 《400~500]、r6 〈500~600]， 对 应 的 SSTable 文 件 分 别 记 为 
sst1，sst2，......，sst6。 假 设 每 个 子 表 存 储 两 个 副本 ， 那 么 ， 找 贝 完 
SSTable 文 件 后 ， 可 能 的 分 布 情况 为 : 


A:sstl], sst3, sst4 
B:sst2, sst3, sst5 
C:sstl, sst4, sst6 


D:sst2, sst5, sst6 


接着 ， 每 个 ChunkServer 分 别 加 载 本 地 的 SSTable 文 件 ， 完 成 后 问 
RootServer 汇 报 。RootServer 最 终 会 将 这 些 信息 记录 到 RootTable 中 ， 如 
下 : 


rl(0~100]:A、C 


r2(100~200]:B、D 


r3(200~300]:A、B 
r4(300~400]:A、C 
r5(400~500]:B、D 
r6(500~600]:C 、D 


如 果 导 入 的 过 程 中 ChunkServer 发 生 故 障 ， 例 如 拷贝 sst1 到 机 器 C 失 败 ， 
那么 ， 游 路 导入 模块 会 自动 选择 另外 一 台 机 器 拷贝 数据 。 


当然 ， 实 现 和 旁 路 导入 功能 时 还 需要 考虑 很 多 问题 。 例 如 ， 如 何 文 持 将 
数据 导入 到 多 个 数据 中 心 的 主 备 OceanBase 集 群 ， 这 里 不 会 涉及 这 些 细 


J 


人 O 

9.5.3 数据 分 区 

虽然 我 们 坚持 认为 通过 单机 性 能 优化 以 及 硬件 性 能 的 提升 ， 
UpdateServer 单 点 对 于 互联 网 数据 库 业 务 不 会 成 为 瓶颈 。 但 是 ， 随 着 


OceanBase 的 应 用 场景 越 来 越 广 ， 例 如 ， 存 储 原 始 日 志 ， 我 们 也 可 能 需 
要 实现 更 新 万 点 可 扩展 。 本 节 探 讨 一 种 可 能 的 做 法 。 


OceanBase 可 以 借鉴 关系 数据 库 中 的 分 区 表 的 概念 ， 将 数据 划分 为 多 个 
分 区 ， 人 允许 不 同 的 分 区 被 不 同 的 UpdateServer 服 务 。 例 如 ， 将 所 有 的 数 


据 按照 哈 希 的 方式 划分 为 4096 个 分 区 ， 这 样 ， 同 一 个 集群 中 最 多 人 允许 
4096 个 写 节 点 。 


如 图 9-11 所 示 ， 可 以 将 Users 表 格 和 Albums 的 user_id 列 按照 相同 的 规则 

做 哈 硕 ， 这 样 ， 同 一 个 用 户 的 所 有 数据 属于 相同 的 分 区 。 由 于 同一 个 

分 区 只 会 被 同一 个 UpdateServer 服 务 ， 因 此 ， 保 证 了 同一 个 用 户 下 读 写 
操作 的 事务 性 ， 另 外 ， 不 同 用 户 之 间 的 事务 可 以 通过 两 阶段 提交 或 者 

最 终 一 致 性 的 方式 实现 。 这 种 方式 实现 起 来 非常 简单 ， 而 且 能 够 完全 

兼容 SQL 语法 。 


CREATE TABLE Users 人 
uBer id .tnt notonuli 
email varchar (100), 
PRIMARY KEY (user id) 

) PARTITION BY HASH(user id); 

CREATE TABLE Albums 人 


user id int not null, 
album id int, 


name varchar(100, 
PRIMARY KEY (user id, album id) 
) PARTITION BY HASH (user id); 


图 9-11 哈 希 分 区 SQL 语 法 


从 图 8-1 中 的 整体 架构 图 可 以 看 出 ， 在 目前 的 单 更 新 市 点 架构 中 ， 
UpdateServer 进 程 总 是 与 ChunkServer 进 程 部 署 到 不 同 的 服务 器 ， 而 且 两 
种 服务 器 对 硬件 的 要 求 不 同 。 如 果 OceanBase 文 持 哈 希 分 区 ， 还 能 够 将 


UpdateServer 进 程 和 ChunkServer 进 程 部 署 到 一 起 ， 这 样 部 署 起 来 会 更 加 
方便 。 


除了 哈 希 分 区 ，OceanBase 还 能 够 通过 范围 分 区 实现 更 新 节点 可 扩展 ， 
即 不 同 的 用 户 按 照 user_id 有 序 分 布 到 多 台 UpdateServer。 虽然 支 持 
UpdateServer 线 性 可 扩展 的 架构 看 似 “ 比 较 优雅 "， 但 是 ， 这 件 事情 并 不 
紧急 。 这 是 因为 ，OLTP 类 应 用 对 性 能 的 需求 是 有 天 花 板 的 (例如 全 世 
界 人 口 共 50 亿 ， 即 使 其 中 五 分 之 一 的 人 都 在 某 一 天 产生 了 一 笔 区 易 ， 
这 一 天 的 总 交易 笔 数 也 只 有 10 亿 笔 ) ， 单 UpdateServer 对 于 OLTP 类 数 
据 库 业务 的 性 能 是 足够 的 。 


第 10 章 数据 库 功 能 


数据 库 功能 层 构 建 在 分 布 式 存 储 引 警 层 之 上 ， 实 现 完整 的 关系 数据 库 


功能 。 


对 于 使 用 者 来 说 ，OceanBase 与 MySQL 数据 库 并 没有 什么 区 别 ， 可 以 通 
过 MySQL 客 户 端 连 接 OceanBase， 也 可 以 在 程序 中 通过 JDBC/ODBC 操 
作 OceanBase。OceanBase 的 MergeServer 模 块 文 持 MySQL 协 议 ， 能 够 将 
其 中 的 SQL 请 求解 析出 来 ， 并 转化 为 OceanBase 系 统 的 内 部 调用 。 


OceanBase 定 位 为 全 功能 的 天 系数 据 库 ， 但 这 并 不 代表 我 们 会 同等 对 答 
所 有 的 关系 数据 库 功 能 。 关 系数 据 库 系统 中 优化 胡 古 最 为 复杂 的 ， 这 


个 问题 困扰 了 关系 数据 库 几 十 年 ， 更 不 可 能 是 OceanBase 的 长 项 。 
此 ，OceanBase 文 持 的 SQL 语 句 一 般 比较 简单， 绝 大 部 分 为 针对 单 张 表 
格 的 操作 ， 只 有 很 少 一 部 分 操作 涉及 多 张 表格 。OceanBase 内 部 将 事务 
划分 为 只 读 事 务 和 读 写 事务 ， 只 读 事务 执行 过 程 中 不 需要 加 锁 ， 读 写 
事务 最 终 需 要 发 给 UpdateServer 执 行 。 相 比 传统 的 关系 数据 库 ， 
OceanBase 执 行 简单 的 SQL 语句 要 高 效 得 多 。 


除了 文 持 OLIP 业 务 ，OceanBase 还 能 够 文 持 OLAP 业 务 。OLAP 业 务 的 
查询 请 求 并 发 数 不 会 太 高 ， 但 每 次 查询 的 数据 量 都 非常 大 。 为 此 ， 
OceanBase 专 | 门 设计 了 并 行 计算 框架 和 列 式 存储 来 处 理 OLAP 业 务 面 临 
的 大 查询 问题 。 


最 后 ，OceanBase 还 针对 实际 业务 的 需求 开发 了 很 多 特色 功能 ， 例 如 ， 
用 于 淘宝 网 收藏 夹 的 大 表 左 连接 功能 ， 数 据 目 动 过 期 以 及 批量 删除 功 
能 。 这 些 功能 在 关系 数据 库 中 要 人 么 不 文 择 ， 要 么 效率 很 低 ， 不 能 满足 
业务 的 需求 ， 我 们 将 这 些 需求 通用 化 后 集成 到 OceanBase 系 统 


10.1 整体 结构 


数据 库 功 能 层 的 整体 结构 如 图 10-1 所 示 。 


MySQL 客户 端 、JDBC/ODBC 等 


SQL 请 求 


MergeServer MergeServer MergeServer 


a 


2 
. 有 
| 
ChunkServer ChunkServer ChunkServer UpdateServer 
CS-SQL CS-SQL CS-SQL UPS-SQL 
n 
n E 
bm” Lam 


读 取 修 改 增 基 


图 10-1 数据 库 功 能 层 整体 结构 


用 户 可 以 通过 兼容 MySQL 协 议 的 客户 兽 、JDBC/ODBC 等 方式 将 SQL 请 
求 发 送 给 某 一 台 MergeServer,MergeServer 的 MySQL 协 议 模 块 将 解析 出 
其 中 的 SQL 语 句 ， 并 交 给 MS-SQL 模 块 进行 词法 分 析 (采用 GNU Flex 实 
现 ) 、 语 法 分 析 (采用 GNU Bison 实 现 ) 、 预 处 理 、 并 生成 逻辑 执行 计 
划 和 物理 执行 计划 。 


如 果 是 只 读 事务 ，MergeServer 需 要 首先 定位 请 求 的 数据 所 在 的 
ChunkServer， 接 着 往 相 应 的 ChunkServer 发 送 SQL 子 请 求 ， 每 个 


ChunkServer 将 调用 CS-SQL 模 块 计 算 SQL 子 请 求 的 结果 ， 并 将 计算 结果 
返回 给 MergeServer。 最 后 ，MergeServer 需 要 整合 这 些 子 请 求 的 返回 结 
果 ， 执 行 结果 合并 、 联 表 、 子 查询 等 操作 ， 得 到 最 终结 果 并 返回 给 客 


户 病 。 


如 果 是 读 写 事务 ，MergeServer 需 要 首先 从 ChunkServer 中 读 取 需要 的 基 
线 数据 ， 接 着 将 物理 执行 计划 以 及 基线 数据 一 起 发 送 给 
UpdateServer,UpdateServer 将 调用 UPS-SQL 模 块 完成 最 终 的 写 事务 。 这 
几 个 模块 功能 如 下 所 示 : 


eCS-SQL: 实现 针对 单个 子 表 的 SQL 查询 ， 包 括 表 格 扫描 (table 
scan) 、 投 影 (projection) 、 过 滤 (filter) 、 排 序 (order by) 、 分 组 
(group by) 、 分 页 (imit) ,支持 表达 式 计 算 、 聚 集 函 数 《count、 
sum、max、min 等 ) 。 执 行 表 格 扫描 时 ， 需 要 从 UpdateServer 读 取 修 改 
增 量 ， 与 本 地 的 基线 数据 合并 。 


eUPS-SQL: 实现 写 事务 ， 文 持 的 功能 包括 多 版 本 并 发 控制 、 操 作 日 志 
多 线程 并 发 回放 等 。 


eMS-SQL: SQL 语 句 解 析 ， 包 括 词法 分 析 、 语 法 分 析 、 预 处 理 、 生 成 
执行 计划 ， 按 照 子 表 范围 合并 多 个 ChunkServer 返 回 的 部 分 结果 ， 实 现 
针对 多 个 表格 的 物理 操作 符 ， 包 括 联 表 (Join) ， 子 查询 (subquery) 


签 。 
可 


10.2 只 读 事务 


只 读 事务 (SELECT 语句 ) ， 经 过 词法 分 析 、 语 法 分 析 ， 预 处 理 后 ， 转 
化 为 逻辑 查询 计划 和 物理 查询 计划 。 以 SQL 语 句 select c1，c2 from tl 
where id=1 group by cl order by c2 为 例 ，MergeServer 收 到 该 语句 后 将 调 
用 ObSql 类 的 静态 方法 direct_execute， 执 行 步 又 如 下 : 


1) 调用 flex、bison 解 析 SQL 语 句 生 成 一 个 语法 树 。 


2) 解析 语法 树 ， 生 成 逻辑 执行 计划 ObSelectStmt。ObSelectStmt 结 构 中 
记录 了 SQL 语句 扫描 的 表格 名 (tl1) ， 投 影 列 (cl1，c2) ， 过 滤 条 件 
(id=1) ， 分 组 列 (c1) 以 及 排序 列 (c2) 。 


3) 根据 逻辑 执行 计划 生成 物理 执行 计划 。ObSelectStmt 只 是 表达 了 一 
种 意图 ， 但 并 不 知道 实际 如 何 执行 ，ObTransformer 类 的 
generate_physical_plan 将 ObSelectStmt 转 化 为 物理 执行 计划 。 


逻辑 查询 计划 的 改进 以 及 物理 查询 计划 的 选择 ， 即 查询 优化 器 ， 是 关 
系数 据 库 最 难 的 部 分 ，OceanBase 目 前 在 这 一 部 分 的 工作 不 多 。 因 此 ， 
本 节 不 会 涉及 太 多 关于 如 何 生 成 物理 查询 计划 的 内 容 ， 下 面 仅 以 两 个 
例子 说 明 OceanBase 的 物理 查询 计划 。 


例 10-1 假设 有 一 个 单 表 SQL 语 句 如 图 10-2 所 示 。 


Limit (offset=0,count=20) 


Project (col={c1, sum{(c2) 


Select cl, suml(c2) 
from 七 
group by cl = 


having Sum(c2) >= 10 


order by cl 


而 训 蕊 6 流 0 Filter (cond={sum(c2) >=10}) 


HashGroupBy (groupby={c1}, 


aggr={sum(c2)}) 


图 10-2 单 表 物 理 查 询 计划 示例 
单 表 SQL 语 句 执 行 过 程 如 下 : 


1) 调用 TableScan 操 作 符 ， 读 取 子 表 t1 中 的 数据 ， 该 操作 符 还 将 执行 投 
影 (Project) 和 过 滤 (Filter) ， 返 回 的 结果 只 包含 c3=10 的 数据 行 ， 且 
每 行 只 包含 cl、c2、c3 三 列 。 


2) 调用 HashGroupBy 操 作 符 〈 假 设 采用 基于 哈 希 的 分 组 算法 ) ， 按 照 
c1 对 数据 分 组 ， 同 时 计算 每 个 分 组 内 c2 列 的 总 和 。 


3) 调用 Filter 操 作 符 ， 过 滤 分 组 后 生成 的 结果 ， 只 返回 上 一 层 sum 
(c2) >=10 的 行 。 


4) 调用 Sort 操 作 符 将 结 采 按照 cl 排序 。 


5) 调用 Project 操 作 符 ， 只 返回 c1 和 sum (c2) 这 两 列 数据 。 


6) 调用 Limit 操 作 符 执 行 分 页 操作 ， 只 返回 前 20 条 数据 。 


例 10-2 假设 有 一 个 需要 联 表 的 SQL 语句 如 图 10-3 所 示 。 


Limit (offset=0,count=20) 


Project (col={tl1.cl1,sum(t2,c2)}) 


Sort (col={t1.c1}) 


select tl1.cl1l, sum{t2.c3) 


fTOMN 七 二。 二 2 


where tl1.c2=t2.c2 
3a= 


and t1.c3=10 Filter (cond={sum(t2.c3)>=10}) 


group by tl1.c1 


having sum(lt2.c3) >= 10 
HashGroupBy (groupby={t1.c1}), 


order by tl1.c1 
aggr={sum(t2.c2)} 


limit 0, 20 


MergeJoin(cond={t1.c2=t2.c2}) 


Sort {col={t1.c2})) Sort (col={t2.c2)}) 


Tablescanl(table=t1,col={cl1, TableScan (table=t2,col= 
c2,c3}, filter={c3=10}) {c1,c2,c3}) 


图 10-3 多 表 物 理 查 询 计划 示例 
多 表 SQL 语 句 执行 过 程 如 下 : 


1) 调用 TableScan 分 别 读 取 tl 和 t2 的 数据 。 对 于 t1， 使 用 条 件 c3=10 对 结 
果 进 行 过 滤 ，t1 和 t2 都 只 需要 返回 c1，c2，c3 这 三 列 数据 。 


2) 假设 采用 基于 排序 的 表 连 接 算法 ，t1 和 t2 分 别 按照 t1.c2 和 t2.c2 排 序 
后 ， 调 用 Merge Join 运 算 符 ， 以 tl.c2=t2.c2 为 条 件 执行 等 值 连接 。 


3) 调用 HashGroupBy 运 算 符 〈 假 设 采 用 基于 哈 希 的 分 组 算法 ) ， 按 照 
tl.c1 对 数据 分 组 ， 同 时 计算 每 个 分 组 内 世 .c3 列 的 总 和 。 


4) 调用 Filter 运 算 符 ， 过 滤 分 组 后 的 生成 的 结果 ， 只 返回 上 一 层 sum 
(t2.c3) >=10 的 行 。 


5) 调用 Sort 操 作 符 将 结果 按照 t1.cl 排 序 。 

6) 调用 Project 操 作 符 ， 只 返回 t1.c1 和 sum (t2.c3) 这 两 列 数据 。 
7) 调用 Limit 操 作 符 执行 分 页 操作 ， 只 返回 前 20 条 数据 。 

10.2.1 物理 操作 符 接 口 


9.4.2 节 介 绍 一 期 分 布 式 存储 引擎 中 的 迭代 器 接口 为 Oblterator， 通 过 
它 ， 可 以 将 读 到 的 数据 以 cell 为 单位 逐个 迭代 出 来 。 然 而 ， 数 据 库 操作 
总 是 以 行为 单位 的 ， 因 此 ， 二 期 实现 数据 库 功 能 层 时 考虑 将 基于 cell 的 
迭代 器 修改 为 基于 行 的 迭代 器 。 


行 适 代 右 接口 如 下 : 


//ObRow 表 示 一 行 数据 内 容 


class ObRow 


public: 

/根据 表 ID 以 及 列 ID 获得 指定 cell 
//@param[injtable_id 表 格 ID 
//@paraml[inlcolumn_id 列 ID 
//@param[out]cell 读 到 的 cell 


int get_cell(const uint64_t table_id,const uint64_t column_id,ObObj*& 


cell); 
// 获 取 第 cell_idx 个 cell 


int raw_get_cell(const int64_t cell_idx,const ObObj*&cell,uint64 tz 


table_id, 
uint64_t&column_id); 
/获取 本 行 的 列 数 


int64 t get_column_num()const; 


}; 


每 一 行 数据 (ObRow) 包括 多 个 列 ， 每 个 列 的 内 容 包 括 所 在 的 表 ID 
(table id) ， 列 ID (column_id) 以 及 列 内 容 (cell) 。ObRow 提 供 两 
种 访问 方式 ， 根 据 table_id 和 column_id 随 机 访问 某 个 列 ， 以 及 根据 列 下 
标 (cell_idx) 获取 某 个 指定 列 。 


物理 运算 符 接 口 如 下 : 

// 物 理 运 算 符 接口 

class ObPhyOperator 

{ 

public: 

/ 诡 加 于 运算 符 ， 所 有 非 叶子 节点 物理 运算 符 都 需要 调用 该 接口 
virtual int set_child(int32_t child_idx,ObPhyOperator& child_operator); 
/打开 物理 运算 符 。 申 请 资源 ， 打 开 子 运算 符 等 


virtual int open()=0; 


/关闭 物理 运算 符 。 释 放 货 源 ， 关 闭 子 运算 符 等 


Virtual int close()=0; 


// 获 得 下 一 行 数据 内 容 

//@param[out]row 下 一 行 数据 内 容 的 引用 

//@return 返 回 码 ， 包 括 成 功 、 达 代 过 程 中 出 现 错误 以 及 类 代 完 成 
Virtual int get_next_row(const ObDRow* &row)=0; 

}; 

ObPhyOperator 每 次 获取 一 行 数据 ， 使 用 方法 如 下 : 
ObPhyOperator root_operator=root_operator_;/ 根 运算 符 

root _operator- > open(); 

ObRow*row=NULL.; 


while(OB_SUCCESS==root_operator- > get_next_row(row)) 


Output(row);// 输 出 本 行 


root_operator- > close(); 


为 什么 ObPhyOperator 类 中 有 一 个 set_child 接 口 呢 ? 这 是 因为 所 有 的 物 
理 运算 符 构 成 一 个 树 ， 每 个 物理 运算 的 输出 结果 都 可 以 认为 是 一 个 临 
时 的 二 维 表 ， 树 中 孩子 市 点 的 输出 总 是 作为 它 的 父 杀 市 反 的 输入 。 例 
10-1 中 ， 叶 子 节 点 为 一 个 TableScan 类 型 的 物理 运算 符 〈 称 为 
table_scan_op) ， 它 的 父亲 节点 为 一 个 HashGroupBy 类 型 的 物理 运算 符 

( 称 为 hash_group_by_op) ， 接 下 来 依次 为 Filter 类 型 物理 运算 符 
filter_op,Sort 类 型 物理 运算 符 Sort_op,Project 类 型 物理 运算 符 
project_op,Limit 类 型 物理 运算 符 limit_ op。 其中，limit_op 为 根 运 算 符 。 
那么 ， 生 成 物理 运算 符 时 将 执行 如 下 语句 : 


limit_op-> set_child(0, project_op); 

project_op-> set_child(0, sort_op); 

sort_op-> set_child(0, filter_op); 

filter_op- > set_child(0, hash_group_by_op); 
hash_group_by_op-> set_child(0, table_scan_op); 


root_op=limit_op; 


SQL 最 终 执行 时 ， 只 需要 迭代 root_ op 〈 即 limit op) 就 能 够 把 需要 的 数 
据 依 次 欠 代 出 来 。limit_ op 发 现 前 一 批 数据 送 代 完成 则 驱动 下 层 的 
project_op 获 取 下 一 批 数 据 ，project_op 发 现 前 一 批 数据 迭代 完成 则 驱动 
下 层 的 sort_op 获 取 下 一 批 数据 。 以 此 类 推 ， 直 到 最 撒 层 的 table_scan_op 
不 断 地 从 原始 表 t1 中 读 取 数据 。 


10.2.2 单 表 操 作 


单 表 相关 的 物理 运算 符 包 括 : 


eTableScan: 扫描 某 个 表格 ，MergeServer 将 扫描 请 求 发 给 请 求 的 各 个 
子 表 所 在 的 ChunkServer， 并 将 ChunkServer 返 回 的 结果 按照 子 表 范围 拼 
接 起 来 作为 输出 。 如 果 请 求 涉及 多 个 子 表 ，TabletScan 可 由 多 人 台 
ChunkServer 并 发 执行 。 


eFilter: 针对 每 行 数据 ， 判 断 十 否 满 足 过 滤 条 件 。 


eProjection: 对 输入 的 每 一 行 ， 根 据 定 义 的 输出 表达 式 ， 计 算 输 出 结 
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eGroupBy: 把 输入 数据 按照 指定 列 进行 聚集 ， 对 聚集 后 的 每 组 数据 可 
以 执行 计数 (count) 、 求 和 (sum) 、 计 算 最 小 值 (min) 、 计 算 最 大 
值 (max) 、 计 算 平 均值 (avg) 等 聚集 操作 。 


eSort: 对 输入 数据 进行 整体 排序 ， 如 果 内 存 不 够 ， 需 要 使 用 外 排序 。 


eLimit (offset,count) : 返回 行 号 在 [offset,offsettcount) 范围 内 的 行 。 


eDistinct: 消除 某 些 列 相同 的 重复 行 。 


GroupBy、Distinct 物 理 操作 符 可 以 通过 基于 排序 的 算法 实现 ， 也 可 以 
通过 基于 哈 硕 的 算法 实现 ， 分 别 对 应 HashGroupBy 和 MergeGroupBvy， 
以 及 HashDistinct 和 MergeDistinct。 下 面 分 别 讨论 排序 算法 和 哈 希 算 


法 。 


1. 排 序 算法 


MergeGroupBy、MergeDistinct 以 及 Sort 都 需要 使 用 排序 算法 。 通 用 的 < 
keyvalue> 排 序 器 可 以 分 为 两 个 阶段 : 


e 数 据 收 集 : 在 数据 收集 阶段 ， 调 用 者 将 <keyvalue> 对 依次 加 入 到 排 
序 器 。 如 采 数 据 总 量 超过 排序 右 的 内 存 上 限 ， 需 要 首先 将 内 存 中 的 数 
据 排 好 序 ， 并 存储 到 外 部 磁 副 中。 


e 达 代 输 出 : 迭代 第 一 行 数据 时 ， 内 存 中 可 能 有 一 部 分 未 排序 的 数据 ， 
磁盘 中 也 可 能 有 几 路 已 经 排 好 序 的 数据 。 因 此 ， 首 先 将 内 存 中 的 数据 
排 好 序 。 如 果 数 据 总 量 不 超过 排序 器 内 存 上 限 ， 那 么 将 内 存 中 已 经 排 
好 序 的 数据 按 行 迭代 输出 《内 排序 ) ;和 否则， 对 内 存 和 磁盘 中 的 部 分 
有 序数 据 执行 多 路 归并 ， 一 边 归 并 一 边 将 结果 迭代 输出 。 


2. 哈 希 算法 


HashGroupBy 以 及 HashDistinct 都 需要 使 用 哈 希 算法 。 假 设 需要 对 < 
keyvalue> 对 按照 key 分 组 ， 那 么 首先 使 用 key 计 算 哈 希 值 K， 并 将 这 个 
<keyvalue> 对 写 入 到 第 K 个 桶 中 。 不 同 的 key 可 能 对 应 相同 的 哈 希 
桶 ， 因 此 ， 还 需要 对 每 个 哈 希 桶 内 的 <key,value> 对 排序 ， 这 样 才能 使 
得 key 相 同 的 元 组 能 够 连续 迭代 出 来 。 哈 希 算法 的 难点 在 于 数据 总 量 超 
过 内 存 上 限 的 处 理 ， 由 于 篇 幅 有 限 ， 请 上 自行 思考 。 


10.2.3 多 表 操 作 


多 表 相 关 的 物理 操作 符 主 要 是 Join。 最 为 常见 的 Join 类 型 包括 两 种 : 内 
连接 (Inner Join) 和 左 外 连接 (Left Outer Join) ， 而 且 基 本 都 是 等 值 
连接 。 如 采 需 要 连接 多 张 表 ， 可 以 先 连 接 前 两 张 表 ， 再 将 前 两 张 表 连 
接生 成 的 结果 (相当 于 一 张 临时 表 ) 与 第 三 张 表 格 连接 ， 以 此 类 推 。 


两 张 表 实现 等 值 连接 方式 主要 分 为 两 类 : 基于 排序 的 算法 
(MergeJoin) 以 及 基于 哈 希 的 算法 (HashJoin) 。 对 于 MergeJoin， 首 
抑 使 用 Sort 运 算 符 分 别 对 输入 表格 预 处 理 ， 使 得 两 张 输入 表 都 在 连接 列 
上 排 好 序 ， 接 着 按 顺 序 迭 代 两 张 输入 表 ， 合 并 连接 列 相 同 的 行 并 输 
出 ; 对 于 HashJoin， 目 先 根 据 连接 列 计算 哈 希 值 K， 并 分 别 将 两 张 输 入 
表格 的 数据 写 入 到 第 K 个 桶 中 。 接 着 ， 对 每 个 哈 希 桶 按照 连接 列 排序 。 
最 后 ， 依 次 对 每 个 哈 希 桶 合并 连接 列 相同 的 行 并 输出 。 


子 查询 分 为 两 种 : 关联 子 查询 和 非 关联 子 查询 ， 其 中 比较 音 用 的 是 使 
用 IN 子 句 的 非 关 联 子 查询 。 举 例如 下 : 


例 10-3 假设 有 两 张 表 格 : item 《商品 表 ， 包 括 商品 号 item_id， 商 品名 
item_name， 分 类 号 category id，) ，category 〈 类 别 表 ， 包 括 分 类 号 
category_id， 分 类 名 category_name) 。 如 果 需 要 查询 分 类 号 出 现在 
category 表 中 商品 ， 可 以 采用 图 10-4 左 边 的 IN 子 查询 ， 而 这 个 子 查询 将 
税目 动 转化 为 图 10-4 右 边 的 等 值 连接。 如 果 category 表 中 的 category_id 
列 有 重复 ， 表 连接 之 前 还 需要 使 用 distinct 运 算 符 来 删除 重复 的 记录 。 


select item id, item name 


from item 


select item id, item name 
where category id IN 3 
1 from item, category 


select category id where 


item.category id 


from category 


) = Category.category id 


图 10-4 IN 子 查询 转化 为 等 值 连接 


例 10-4 例 10-3 中 ， 如 果 category 表 只 包含 category_id 为 1 一 10 的 记录 ， 那 
么 ， 可 以 将 IN 子 查询 写成 图 10-5 中 的 常量 表达 式 。 


select item id, item name 
from item 


where category id IN 
{12297 RTTEIFEO) 


图 10-5 IN 子 查询 转化 为 常量 表达 式 


转化 为 常量 表达 式 后 ，MergeServer 执 行 SQL 计算 时 ， 可 以 将 IN 后 面 的 
常量 列表 发 送 给 ChunkServer,ChunkServer 只 返回 category_id 在 常量 列表 
中 的 商品 记录 ， 而 不 是 将 所 有 的 记录 返回 给 MergeServer 过 滤 ， 从 而 减 
少 二 者 之 间 传 输 的 数据 量 。 


OceanBase 多 表 操 作 做 得 还 很 粗糙 ， 例 如 不 支持 舱 套 连接 (Nested Loop 
Join) ， 不 支持 非 等 值 连 接 ， 不 支持 查询 优化 等 ， 后 续 将 在 合适 的 时 间 
对 这 一 部 分 代码 进行 重 构 。 


10.2.4 SQL 执 行 本 地 化 


MergeServer 包 含 SQL 执 行 模块 MS-SQL,ChunkServer 也 包含 SQL 执 行 模 
块 CS-SQL， 那 么 ， 如 何 区 分 二 者 的 功能 呢 ? 多 表 操 作 由 MergeServer 执 
行 ， 对 于 单 表 操 作 ，OceanBase 设 计 的 基本 原则 是 尽量 支持 SQL 计算 本 
地 化 ， 保 持 数 据 节 点 与 计算 节点 一 致 ， 也 就 是 说 ， 只 要 ChunkServer 能 
够 实现 的 操作 ， 原 则 上 都 应 该 由 它 来 完成 。 


eTableScan: 每 个 ChunkServer 扫 描 各 目 子 表 范 围 内 的 数据 ， 由 
MergeServer 合 并 ChunkServer 返 回 的 部 分 结果 。 


eFilter:， 对 基本 表 的 过 滤 集 成 在 TableScan 操 作 符 中 ， 由 ChunkServer 完 
成 。 对 分 组 后 的 结果 执行 过 滤 (Having) 集成 在 GroupBy 操 作 符 中 ， 一 


般 情 况 下 由 MergeServer 完 成 但是， 如 有 果 能 够 确定 每 个 分 组 的 所 有 数 
据 行 只 属于 同一 个 子 表 ， 比 如 SQL 请 求 只 涉及 一 个 tablet， 那 么 ， 分 组 
以 及 分 组 后 的 过 滤 操 作答 可 以 由 ChunkServer 完 成 。 


eProjection: 对 基本 表 的 投影 集成 在 TableScan 操 作 符 中 ， 由 
ChunkServer 完 成 ， 对 最 终结 果 的 投影 由 MergeServer 完 成 。 


eGroupBy: 如 条 SQL 读 取 的 数据 只 在 一 个 子 表 上 ， 那 么 由 该 子 表 所 在 
的 ChunkServer 完 成 分 组 操作 ; 否则 ， 每 台 ChunkServer 各 自 完 成 部 分 数 
据 的 分 组 操作 ， 执 行 聚合 运算 后 得 到 部 分 结果 ， 再 由 MergeServer 合 并 
所 有 ChunkServer 返 回 的 部 分 结果 ， 对 于 属于 同一 个 分 组 的 数据 再 次 执 
行 聚 合 运 算 。 某 些 聚 合 运算 需要 做 特殊 处 理 ， 比 如 avg， 需 要 转化 为 
sum 和 count 操 作 发 送 给 ChunkServer,MergeServer 合 并 ChunkServer 返 回 的 
部 分 结果 后 计算 出 最 终 的 sum 和 count 值 ， 并 通过 sum/count 得 到 avg 的 最 
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eSort: 如 琳 SQL 读 取 的 数据 只 在 一 个 于 表 上 ， 那 么 由 该 子 表 所 在 的 
ChunkServer 完 成 排序 操作 ;否则 ， 每 台 ChunkServer 各 目 完 成 部 分 数据 
的 排序 ， 并 将 排 好 序 的 部 分 数据 返回 MergeServer， 再 由 MergeServer 执 
行 多 路 归并 。 


eLimit: Limit 操 作 一 般 由 MergeServer 完 成 ， 但 是 ， 如 果 请 求 的 数据 只 
在 一 个 子 表 上 ， 可 以 由 ChunkServer 完 成 ， 这 往往 会 大 大 减少 


MergeServer 与 ChunkServer 之 间 传 输 的 数据 量 。 


eDistinct: Distinct 与 GroupBy 类 似 。ChunkServer 驳 完成 部 分 数据 的 去 
重 ， 再 由 MergeServerj 井 行 整体 去 重 。 


例 10-5 图 10-2 中 的 SQL 语句 为 “select cl1，sum (c2) from tl where c3=10 
group by cl having sum (c2) >=10 order by cl limit 0，20”。 执 行 步 又 
如 下 : 


1) ChunkServer 调 用 TableScan 操 作 符 ， 读 取 子 表 t1 中 的 数据 ， 该 操作 符 
还 将 执行 投影 (Project) 和 过 滤 (Filter) ， 返 回 的 结果 只 包含 c3=10 的 
数据 行 ， 且 每 行 只 包含 c1、c2、c3 三 列 。 


2) ChunkServer 调 用 HashGroupBy 操 作 符 (假设 采用 基于 哈 希 的 分 组 算 
法 ) ， 按 照 c1 对 数据 分 组 ， 同 时 计算 每 个 分 组 内 c2 列 的 总 和 sum 
(c2) 。 


3) 每 个 ChunkServer 将 分 组 后 的 部 分 结果 返回 MergeServer,MergeServer 
将 来 日 不 同 ChunkServer 的 cl 列 相 同 的 行 合 并 在 一 起 ， 再 次 执行 sum 运 
算 o 


4) MergeServer 调 用 Filter 操 作 符 ， 过 滤 第 3) 步 生 成 的 最 终结 果 ， 只 返 


回 sum (c2) >=10 的 行 。 


5) MergeServer 调 用 Sort 操 作 符 将 结果 按照 cl 排序 。 


6) MergeServer 调 用 Project 操 作 符 ， 只 返回 c1 和 sum (c2) 这 两 列 数 
据 。 


7) MergeServer 调 用 Limit 操 作 符 执行 分 页 操作 ， 只 返回 前 20 条 数据 。 


当然 ， 如 采 能 够 确定 请 求 的 数据 全 部 属于 同一 个 子 表 ， 那 么 ， 所 有 的 
物理 运算 符 都 可 以 由 ChunkServer 执 行 ，MergeServer 只 需要 将 
ChunkServer 计 算得 到 的 结果 转发 给 客户 端 。 


10.3 写 事务 


写 事务 ， 包 括 更 新 (UPDATE) 、 择 入 (INSERT) 、 删 除 

(DELETE) 、 替 换 (REPLACE， 插 入 或 者 更 新 ， 如 果 行 不 存在 则 插 
入 新 行 ， 否 则 ， 更 新 已 有 行 ， 由 MergeServer 解 析 后 生成 物理 执行 计 
划 ， 这 个 物理 执行 计划 最 终 将 发 给 UpdateServer 执 行 。 写 事务 可 能 需要 
读 取 基 线 数据 ， 用 于 判断 更 新 或 者 插入 的 数据 行 是 否 存 在 ， 判 断 某 个 
条 件 是 否 满足 ， 等 等 ， 这 些 基线 数据 也 会 由 MergeServer 传 给 


UpdateServer ° 


10.3.1 写 事务 执行 流程 


大 部 分 写 事务 都 是 针对 单行 的 操作 ， 如 有 果 单 行事 务 不 带 其 他 条 件 : 


eREPLACE: REPLACE 事务 不 关心 写 入 行 是 否 已 经 存在 ， 因 此 ， 
MergeServer 直 接 将 修改 操作 发 送 给 UpdateServer 执 行 。 


eINSERT: MergeServer 首 先 读 取 ChunkServer 中 的 基线 数据 ， 并 将 基线 
数据 中 行 是 否 存 在 信息 发 送 给 UpdateServenUpdateServer 接 着 查看 增 量 
数据 中 行 是 否 被 删除 或 者 有 新 的 修改 操作 ， 融 合 基线 数据 和 增 量 数据 
后 ， 如 果 行 不 存在 ， 则 执行 播 入 操作 ; 否则 ， 返 回 行 已 存在 错误 。 


eUPDATE: 与 INSERT 事 务 执行 步骤 类 似 ， 不 同 点 在 于 ， 行 已 存在 则 执 
行 更 新 操作 ; 和 否则， 什么 也 不 做 。 


eDELETE: 与 UPDATE 事 务 执 行 步 骤 类 似 。 如 果 行 已 存在 则 执行 删除 
操作 ; 否则 ， 什 么 也 不 做 。 


如 琳 单 行 写 事务 市 有 其 他 条 件 : 


eUPDATE: 如 采 UPDATE 事 务 带 有 其 他 和 条件， 那么 ，MergeServer 除 了 
从 基线 数据 中 读 取 行 是 否 存在 ， 还 需要 读 取 用 于 条 件 判断 的 基线 数 
据 ， 并 传 给 UpdateServer。UpdateServer 融 合 基线 数据 和 增 量 数据 后 ， 
将 会 执行 条 件 判 断 ， 如 果 行 存在 且 判 断 条 件 成 立 则 执行 更 新 操作 。 人 否 
则 ， 返 回 行 已 存在 或 者 条 件 不 成 立 错误 。 


eDELETE: 与 UPDATE 事 务 执行 步骤 类 似 。 


例 10-6 有 一 张 表 格 item (user_id,item _id,item_status,item_name) ， 其 
中 ，<user id,item_id> 为 联合 主键 。 


MergeServer 首 先 解析 图 10-6 的 SQL 语句 产生 执行 计划 ， 确 定 待 修改 行 
的 主键 为 <1，2> ， 接 着 ， 请 求 主键 <1，2> 所 在 的 ChunkServer， 获 
取 基 线 数据 中 行 是 否 存在 ， 最 后 ， 将 SQL 执行 计划 和 基线 数据 中 行 是 
否 存 在 一 起 发 送 给 UpdateServer。UpdateServer 融 合 基 线 数据 和 增 量 净 
据 ， 如 果 行 已 存在 且 未 被 删除 ，UPDATE 和 DELETE 语 句 执行 成 功 ， 
INSERT 语 名 执行 返回 “ 行 已 存在 ”， 如 果 行 不 存在 或 者 最 后 被 删除 ， 
INSERT 语 名 执行 成 功 ，UPDATE 和 DELETE 语 句 返回 “ 行 不 存在 ”。 


// 插入 语 外 
insert into item 
values(1, 2, 0; "iteml"): 
// 更 新 语 可 
update item 
set item status=1 
where user id=1 
and Item id=2:; 
// 删除 语 铝 
delete from item 


Where user id=1 


and item id=2:; 


图 10-6 单行 写 事务 (不 带 条 件 ) 


图 10-7 中 的 UPDATE 和 DELETE 语 句 还 沉 有 item_name=“item1” 的 条 件 ， 
MergeServer 除 了 请 求 ChunkServer 获 取 基 线 数据 中 行 是 否 存在 ， 还 需要 
获取 item_name 的 内 容 ， 并 将 这 些 信息 一 起 发 送 给 UpdateServer 。 
UpdateServer 融 合 基线 数据 和 增 量 数据 ， 判 断 最 终结 采 中 行 是 否 存在 ， 


以 及 item_name 的 内 容 是 否 为 *item1”， 只 有 两 个 条 件 同 时 成 立 ， 
UPDAITE 和 DELETE 语 句 才 能 够 执行 成 功 ; 否则 ， 返 回 “ 行 不 存在 或 者 


item_name 列 的 内 容 不 符合 预期 ”。 


// 更 新 语句 
update item 
set item status=1 
where user id=1 
and item id=2 
and item name="iteml"; 
// 删除 语句 
delete from item 
where user id=1 
and item id=2 


and item name="iteml"; 


图 10-7 单行 写 事务 〈 带 条 件 ) 


当然 ， 并 不 是 所 有 的 写 事务 都 这 么 简单 。 复 杂 的 写 事务 可 能 需要 修改 
多 行 数据 ， 事 务 执行 过 程 也 可 能 比较 复杂 。 


例 10-7 有 两 张 表 格 item (user id,item id,item_status,item_name) 以 及 
user (user iduser name) 。 其 中 ，<user id,item id> 为 item 表 格 的 联 
合 主 键 ，user_id 为 user 表 格 的 主键 。 


图 10-8 的 UPDATE 语 句 可 能 会 更 新 多 行 。MergeServer 首 先 从 
ChunkServer 获 取 编 号 为 1 的 用 户 包含 的 全 部 item (可 能 包含 多 行 ) ， 并 


传 给 UpdateServer。 接 着 ，UpdateServer 融 合 基线 数据 和 增 量 数据 ， 和 更 
新 每 个 存在 且 未 被 删除 的 item 的 item_status 列 。 


// 更 新 多 行 

Update item 

set item status=1 
where user id=1; 
// 复杂 条 件 


delete item 


where user id in 


select user id 
from user 


where user name=" 张 三 "; 


图 10-8 复杂 写 事 务 举例 


图 10-8 的 DELETE 语 句 更 加 复杂 ， 执 行 时 需要 首先 获取 user_name 为 “ 张 
三 ”的 用 户 的 user id， 考虑 到 事务 隔离 级 别 ， 这 里 可 能 需要 锁 住 
user_name 为 “ 张 三 ” 的 数据 行 (防止 user_name 被 修改 为 其 他 值 ， 甚至 锁 
住 整 张 user 表 (防止 其 他 行 的 user_name 修 改 为 “ 张 三 * 或 者 插入 
user_name 为 “ 张 三 ” 的 新 行 ) 。 接 着 ， 获 取 用 户 名 为 “ 张 三 ” 的 所 有 用 户 
的 所 有 item， 最 后 ， 删 除 这 些 item。 这 条 语句 执行 的 难点 在 于 如 何 降低 
锁 粒 度 以 及 锁 占 用 时 间 ， 有 具体 的 做 法 请 读者 上 自行 思考 。 


10.3.2 多 版 本 并 发 控制 


OceanBase 的 MemTable 包 含 两 个 部 分 : 索引 结构 及 行 操 作 链 。 其 中 ， 索 
引 结构 存储 行头 信息 ， 采 用 9.1.2 下 中 的 内 存 B 树 实现 ; 行 操作 链表 中 存 


储 了 不 同 版 本 的 修改 操作 ， 从 而 文 持 多 版 本 并 发 控制 。 


OceanBase 文 持 多 线程 并 发 修改 ， 写 操作 拆 分 为 两 个 阶段 : 


e 预 提交 (多 线程 执行 ) : 事务 执行 线程 首先 锁 住 待 更 新 数据 行 ， 接 
着 ， 将 事务 中 针对 数据 行 的 操作 退 加 到 该 行 的 未 提交 行 操作 链表 中 ， 
最 后 ， 往 提交 任务 队列 中 加 入 一 个 提交 任务 。 


e 提 交 (单线 程 执行 ，: 提交 线程 不 断 地 扫描 并 取出 提交 任务 队列 中 的 
提交 任务 ， 将 这 些 任务 的 操作 日 志 仍 加 到 日 志 绥 冲 区 中 。 如 果 日 志 绥 
冲 区 到 达 一 定 大 小 ， 将 日 志 缓 冲 区 中 的 数据 同步 到 备 机 ， 同 时 写 入 主 
机 的 磁盘 日 志文 件 。 操 作 日 志 写 成 功 后 ， 将 未 提交 行 操 作 和 链表 中 的 cell 
操作 追加 到 已 提交 行 操 作 链 表 的 末尾 ， 释 放 锁 并 回复 客户 端 写 操作 成 
功 。 


如 图 10-9 所 示 ，MemTable 行 操作 链表 包含 两 个 部 分 ， 已 提交 部 分 和 未 
提交 部 分 。 男 外 ， 每 个 事务 管理 结构 记录 了 当前 事务 正在 操作 的 数据 
行 的 行头 ， 每 个 数据 行 的 行头 包含 已 提交 和 未 提交 行 操作 链表 的 头 部 
指针 。 在 预 提交 阶段 ， 每 个 事务 会 将 cell 操 作 退 加 到 未 提交 行 操作 链表 
中 ， 并 在 行头 保存 未 提交 行 操作 链表 的 头 部 指针 以 及 锁 信 息 ， 同 时 ， 

将 行头 信息 记录 到 事务 管理 结构 中 ， 在 提交 阶段 ， 根 据 事 务 管理 结构 
中 记录 的 行头 信息 找到 未 提交 行 操作 链表 ， 和 链接 到 已 提交 行 操作 链表 
的 末尾 ， 并 释放 行头 记录 的 锁 。 


Class ObTransExecutor 


public: 


// 处 理 预 提交 任务 


void handle_trans(void*ptask,void*pdata); 


// 处 理 提交 任务 


void handle_commit(void*ptask,void*pdata); 


}; 


cell 操作 


kev2 “es Ea 2 - 
Pg 
i 
: | 
Session2 p< 3 

~ 

Ee ~ Ls】 Le 全 1 
rowkey3 >ell 操作 ell 控 作 


行 腾 行 操作 链表 行 操作 链表 
(已 提交 ) (未 提交 ) 


图 10-9 MemTable 实 现 MVCC 


ObTransExecutor 是 UpdateServer 读 写 事 务 处 理 的 入 口 类 ， 它 主要 包含 两 
个 方法 : handle_trans 以 及 handle_commit。 其 中 ，handle_trans 处 理 预 提 
交 任 务 ，handle_commit 处 理 提交 任务 。handle_trans 首 先 将 写 事 务 预 提 
交 到 MemTable 中 ， 接 着 将 写 事务 加 入 到 提交 任务 队列 。 提 交 线 程 不 断 
地 从 提交 任务 队列 中 取出 提交 任务 ， 并 调用 handle_commit 进 行 处 理 。 


每 个 写 事务 会 根据 提交 时 的 系统 时 间 生 成 一 个 事务 版 本 ， 读 事务 只 会 
读 取 在 它 之 前 提交 的 写 事务 的 修改 操作 。 


如 图 10-10 所 示 ， 对 主键 为 1 的 商品 有 2 个 写 事务 ， 事 务 T1 (提交 版 本 号 
为 2) 将 商品 购买 人 数 修改 为 100， 事 务 T2 (提交 版 本 号 为 4) 将 商品 购 
天 人 数 修改 为 50。 那 么 ， 事 务 T2 预 提交 时 ，T1 已 经 提交 ， 该 商品 的 已 
提交 行 操 作 链 包含 一 个 cell: <update， 购 买 人 数 ，100> ， 未 提交 操作 
连 包 侣 一 个 cell: <update， 购 买 人数 ，50>“。 事 务 T2 成 功 提交 后 ， 该 
品 的 已 提交 行 操 作 链 将 包含 两 个 cell: <update， 购 买 人 数 ，100> 以 
及 <update， 购 天 人 数 ，50> ， 未 提交 行 操 作 链 为 空 。 对 于 只 读 事 务 : 


> 


Nn 


AN 


到 


eT3: 事务 版 本 号 为 1，T1 和 T2 均 未 提交 ， 该 行 数据 为 空 。 


eT4: 事务 版 本 号 为 3，T1 已 提交 ，T2 未 提交 ， 读 取 到 <update， 购 买 
人 数 ，100>。 尽 管 T2 在 T4 执 行 过 程 中 将 购买 人 数 修 改 为 50，T4 第 二 
次 读 取 时 会 过 滤 掉 T2 的 修改 操作 ， 因 而 两 次 读 取 将 得 到 相同 的 结 


eT5: 事务 版 本 号 为 5，T1 和 T2 均 已 提交 ， 读 取 到 <update， 购 天 人 
数 ，100> 以 及 <update， 购 飞人 数 ，50>>， 购 买 人 数 最 终 值 为 50。 


WRITE( 购买 人 数 ，50) 


图 10-10 读 写 事务 并 发 执行 实例 
1. 锁 机 制 


OceanBase 匀 定 粒 度 为 行 锁 ， 默 认 情 况 下 的 隔离 级 别 为 读 取 已 提交 
(read committed) 。 另 外 ， 读 操作 总 是 读 取 某 个 版 本 的 快照 数据 ， 不 
需要 加 锁 。 


。 只 写 事务 (修改 单行 ) ， 事 务 预 提交 时 对 待 修改 的 数据 行 加 写 锁 ， 事 
务 提交 时 释放 写 锁 。 


e 只 写 事 务 (修改 多 行 ) : 事务 预 提交 时 对 待 修改 的 多 个 数据 行 加 写 
锁 ， 事 务 提交 时 释放 写 锁 。 为 了 保证 一 致 性 ， 采 用 两 阶段 锁 的 方式 实 
现 ， 即 需要 在 事务 预 提交 阶段 获取 所 有 数据 行 的 写 锁 ， 如 果 获 取 某 行 
写 锁 失败 ， 整 个 事务 执行 失败 。 


e 读 写 事务 (read committed) : 读 写 事务 中 的 读 操 作 读 取 某 个 版 本 的 快 
照 ， 写 操作 的 加 锁 方 式 与 只 写 事 务 相同 。 


为 了 保证 系统 并 发 性 能 ，OceanBase 暂 时 不 支持 更 高 的 隔离 级 别 。 另 
外 ， 为 了 文 持 对 一 致 性 要 求 很 高 的 业务 ，OceanBase 人 允许 用 户 显 式 锁 住 
某 个 数据 行 。 例 如 ， 有 一 张 账 务 表 account (account id,balance) ， 其 中 
account_id 为 主键 。 假 设 需 要 从 A 账户 (account_id=1) 向 B 账 户 

(account_id=2) 转账 100 元 ， 那 么 ，A 账 户 需 要 减少 100 元 ，B 账 户 需 要 
增加 100 元 ， 整 个 转账 操作 是 一 个 事务 ， 执 行 过 程 中 需要 防止 A 账户 和 
B 账 户 被 其 他 事务 并 发 修改 。 


如 图 10-11 所 示 ，OceanBase 提 供 了 "select.…….for update" 语 句 用 于 显示 
锁 住 A 账 户 或 者 B 账 户 ， 防 止 转账 过 程 中 被 其 他 事务 并 发 修改 。 


select balance as balance a 
from account 


where account id=1 
for update; // 锁 住 A 账户 


select balance as balance b 
from account 
where account id=2 
for update; // 锁 住 BB 账户 


图 10-11 select..…..for update 示 例 


事务 执行 过 程 中 可 能 会 发 生死 锁 ， 例 如 事务 T1 持 有 账户 A 的 写 锁 并 务 试 
获取 账户 B 的 写 饥 ， 事 务 T2 持 有 账户 B 的 写 锁 并 芝 试 获取 账户 A 的 写 

锁 ， 这 两 个 事务 因为 循环 等 待 而 出 现 死 锁 。OceanBase 目 前 处 理 死 锁 的 
方式 很 简单 ， 事 务 执 行 过 程 中 如 果 超 过 一 定时 间 无 法 获取 写 锁 ， 则 有 目 
动 回 滚 。 


2. 多 线程 并 发 日 志 回 放 


9.2.3 廊 介绍 了 主 备 同步 原理 ， 引 入 多 版 本 并 发 控制 机 制 后 ， 
UpdateServer 备 机 文 持 多 线程 并 发 回放 日 志 功 能 。 如 图 10-12 所 示 ， 有 一 
个 日 志 分 发 线程 每 次 从 日 志 源 读 取 一 批 日 志 ， 拆 分 为 单独 的 日 志 回 放 
任务 交 给 不 同 的 日 志 回 放 线 程 处 理 。 一 批 日 志 回 放 完 成 时 ， 日志 提 交 
线程 会 将 对 应 的 事务 提交 到 内 存 表 并 将 日 志 内 容 持 久 化 到 日 志文 件 。 


备 UpdateServer 


主 UpdateServer FE 到 EE O OO 日 志 缓冲 区 


推送 操作 日 志 


日 志 分 发 线程 


拉 取 操作 日 志 


图 10-12 备 机 多 线程 并 发 日 志 回 放 


Class ObLogReplayWorker 


public: 
/提交 一 批 待 回 放 的 操作 日 志 
/@param[outjtask_id 最 后 一 条 操作 日 志 的 编号 
//@param[in]buf 日 志 缓 冲 区 

//@paraml[injlen 日 志 绥 冲 区 的 大 小 


//@param[in]replay_type 日 志 回 放 类 型 ， 包 括 RT_LOCAL (回放 本 地 日 
志 ) 和 RT_APPLY (回放 通过 网 络 接收 到 的 日 志 ) 


int submit_batch(int64_ tStask_id,const char*buf,int64_t len,const 


ReplayType replay_type); 
public: 
// 回 放 一 条 操作 日 志 


int handle_apply(ObLogTask*task); 


}; 


在 9.3.3 市 中 提 到 ， 备 UpdateServer 有 专门 的 日 志 回 放 线 程 不 断 地 调用 
ObUpsLog-Mgr 中 的 replay_log 了 汞 数 获取 并 回放 操作 日 志 。UpdateServer 
支持 多 线程 并 发 写 事务 后 ，replay_log 范 数 实现 成 调用 
ObLogReplayWorker 中 的 submit_batch， 将 一 批 待 回 放 的 操作 日 志 加 入 
到 回放 任务 队列 中 。 多 个 日 志 回 放 线 程 会 取出 回放 任务 并 不 断 地 调用 
handle_apply 回 放 操 作 日 志 ， 即 首先 将 操作 日 志 预 提交 到 MemTable 中 ， 
接着 加 入 到 提交 任务 队列 。 另 外 ， 还 有 一 个 单独 的 提交 线程 会 从 提交 
任务 队列 中 一 次 取出 一 批 任务 ， 提 交 到 MemTable 并 持久 化 到 日 志文 件 
中 o 


10.4 OLAP 业 务 支持 


OLAP 业 务 的 特点 是 SQL 每 次 执行 涉及 的 数据 量 很 大 ， 需 要 一 次 性 分 析 
几 百 万 行 甚至 几 和 于 万 行 的 数据 。 另 外 ，SQL 执 行 时 往往 只 读 取 每 行 的 
部 分 列 而 不 是 整 行 数据 。 


为 了 支持 OLAP 计 算 ，OceanBase 实 现 了 两 个 主要 功能 : 并 发 查询 以 及 
列 式 存储 。 并 行 得 询 功能 允许 将 SQL 请 求 拆 分 为 多 个 子 请 求 同 时 发 送 

给 多 人 台 机 融 并 发 执行 ， 列 式 存储 能 够 提高 压缩 率 ， 大 大 降低 SQL 执行 

时 读 取 的 数据 量 。 本 市 首先 介绍 并 发 查询 功能 ， 接 着 介绍 OceanBase 的 
列 式 存储 引擎 。 


10.4.1 并 发 查询 


如 图 10-13 所 示 ，MergeServer 将 大 请 求 拆 分 为 多 个 子 请 求 ， 同 时 发 往 每 
个 子 请 求 所 在 的 ChunkServer 并 发 执行 ， 每 个 ChunkServer 执 行 子 请 求 并 
将 部 分 结果 返回 给 MergeServer。MergeServer 合 并 ChunkServer 返 回 的 部 


分 结果 并 将 最 终结 果 返 回 给 客户 端 。 
MergeServer 并 发 查询 执行 步骤 如 下 : 


1) MergeServer 解 析 SQL 语 句 ， 根 据 本 地 缓存 的 子 表 位 置信 息 获 取 需 
请 求 的 ChunkServer 。 


请 求 拆 分 请 求 分 发 结果 合并 


ChunkServer ChunkServer 
请 求 执 行 六 请 求 执行 


图 10-13 OceanBase 并 发 查询 


2) 如 果 请 求 只 涉及 一 个 子 表 ， 将 请 求 发 送 给 该 子 表 所 在 的 ChunkServer 
执行 ， 如 果 请 求 涉及 多 个 子 表 ， 将 请 求 按 照 子 表 拆 分 为 多 个 于 请 求 ， 
每 个 子 请 求 对 应 一 个 子 表 ， 并 发 送 给 该 子 表 所 在 的 ChunkServer 并 发 执 


行 。MergeServer 等 得 每 个 子 请 求 的 返回 结果 。 


3) ChunkServer 执 行 子 请 求 ， 计 算 子 请 求 的 部 分 结果 。SQL 执 行 遵从 
10.2.4 节 提 到 的 本 地 化 原则 ， 即 能 让 ChunkServer 执 行 的 尽量 让 
ChunkServer 执 行 ， 包 括 Filter、Project、 子 请 求 部 分 结果 的 GroupBy、 


OrderBy、 聚 合 运算 等 。 


4) 每 个 于 请求 执 行 完成 后 ，ChunkServer 将 执行 结果 回复 
MergeServerMerge-Server 首 先 将 每 个 子 请 求 的 执行 结果 保存 起 来 。 如 
果 某 个 子 请 求 执行 失败 ，MergeServer 会 将 该 子 请 求 发 往 子 表 其 他 副本 
所 在 的 ChunkServer 执 行 。 


5) 等 到 所 有 的 子 请 求 执行 完成 后 ，MergeServer 会 对 全 部 数据 排序 、 分 
组 、 聚 合并 将 最 终结 果 返 回 给 客户 。OceanBase 还 文 持 批 量 读 取 

(multiget) 操作 一 次 性 读 取 多 行 数 据 ， 且 读 取 的 数据 可 能 在 不 同 的 
ChunkServer 上 “。 对 于 这 样 的 操作 ，MergeServer 会 按照 ChunkServer 拆 分 
子 请 求 ， 每 个 子 请 求 对 应 一 个 ChunkServer。 假 设 客户 端 请 求 5 行 数据 ， 
其 中 第 1、3、5 行 在 ChunkServer A 上 ， 第 2、4 行 在 ChunkServer B 上 。 
那么 ， 该 请 求 将 被 拆 分 为 (1、3、5) 和 “(2、4) 两 个 子 请 求 ， 分 别 发 
往 ChunkServer A 和 B。 


Class ObMsSqlRequest 


public: 

/唤醒 正在 等 等 的 工作 线程 

int signal(ObMsSqlRpcEventSevent); 
// 等 得 某 个 子 请 求 返 回 

int wait_single_event(int64_t&timeout); 
/处 理 某 个 子 请 求 的 返回 结果 


Virtual int process_result(const int64 ft 


timeout,ObMsSqlRpcEvent*event,bool&finish)=0; 
上 


ObMSSqlRequest 类 用 于 实现 并 发 查询 ， 相 应 地 ，ObMSsSqlScanRequest 
以 及 ObMs-SqlGetRequest 类 分 别 用 于 实现 并 发 扫描 和 并 发 批量 读 取 。 
MergeServer 将 大 请 求 拆 分 为 多 个 子 请 求 ， 每 个 子 请 求 对 应 一 个 子 请 来 
事件 (ObMsSglRpcEvent) 。 工 作 线程 将 子 请 求 发 给 相应 的 
ChunkServer 后 开始 等 待 (调用 wait_single_event 方 法 ) ，ChunkServer 执 


行 完 子 请 求 后 应 答 MergeServer。MergeServer 收 到 应 答 包 后 回调 signal 邢 
数 ， 唤 醒 工 作 线程 ， 工 作 线 程 接着 调用 process_result 进 行 处 理 。 
ObMSSqlScanRequest 和 ObMsSql-GetRequest 实 现 了 process_result 接 口 ， 
将 每 个 子 请 求 返 回 的 部 分 结果 保存 到 结果 合并 器 merge_operator_ 中。 如 
果 所 有 的 子 请 求全 部 执行 完成 ，process_result 函 数 返 回 的 finish 变 量 将 
置 为 tue， 这 时 ，merge_operator 中 便 保存 了 并 发 查询 的 最 终结 果 。 


细心 的 读者 可 能 会 发 现 ，OceanBase 这 种 查询 模式 虽然 解决 了 绝 大 部 分 
大 查询 请 求 的 延 时 间 题 ， 但 是 ， 如 采 查 询 的 返回 结果 特别 大 ， 
MergeServer 将 成 为 性 能 瓶 贷 。 因 此 ， 新 版 的 OceanBase 系 统 将 对 OLAP 
查询 执行 逻辑 进行 升级 ， 使 其 能 够 文 持 数 据 量 更 大 且 更 加 复杂 的 SQL 


查询 。 


10.4.2 列 式 存储 


列 式 存储 主要 的 目的 有 两 个 : 1) 大 部 分 OLAP 查 询 只 需要 读 取 部 分 列 
而 不 是 全 部 列 数据 ， 列 式 存储 可 以 避免 读 取 无 用 数据 ，2) 将 同一 列 的 
数据 在 物理 上 存放 在 一 起 ， 能 够 极 大 地 提高 数据 压缩 率 。 


列 组 (Column Group) 


OceanBase 通 过 列 组 支持 行列 混合 存储 ， 每 个 列 组 存储 多 个 经 常 一 起 访 
问 的 列 。 


如 图 10-14 所 示 ，OceanBase SSTable 首 先 按照 列 组 存储 ， 每 个 列 组 内 部 
再 按 行 存储 。 分 为 儿 种 情况 : 


Data Block 0 
> 

Data Block 1 

Data Block 2 


Ls 
Column Group 0 Data Block 3 


Column Group 1 ~ Data Block 4 
Column Group 2 Data Block 5 
* 
mm 


_ 
Y Data Block 6 
和 
™ 
i Data Block 7 
洲 


E Data Block 8 


图 10-14 OceanBase 列 组 设计 


e 所 有 列 属 于 同一 个 列 组 。 数 据 在 SSTable 中 按 行 存储 ，OLTP 应 用 往往 
配置 为 这 种 方式 。 


e 每 列 对 应 一 个 列 组 。 数 据 在 SSTable 中 按 列 存 储 ， 这 种 方式 在 实际 应 
用 中 比较 少见 * 


。 每 个 列 组 对 应 一 行 数据 的 部 分 列 。 数 据 在 SSTable 中 按 行列 混合 存 
储 ，OLAP 应 用 往往 配置 为 这 种 方式 。 


OceanBase 还 允许 一 个 列 属 于 多 个 列 组 ， 通 过 元 余 存 储 这 些 列 ， 能 够 提 
高 访问 性 能 。 例 如 ， 某 表格 总 共 包含 5 列 ， 用 户 经 常 一 起 访问 (1，3， 
5) 或 者 〈1，2，3，4) 列 。 如 果 将 (1，3，5) 和 (1，2，3，4) 存 
储 到 两 个 列 组 中 ， 那 么 ， 大 部 分 访问 只 需要 读 取 一 个 列 组 ， 避 免 了 多 
个 列 组 的 合并 操作 。 


列 式 存储 提高 了 数据 压缩 比 ， 然 而 ， 实 践 过 程 中 我 们 发 现 ， 由 于 
OceanBase 最 初 的 几 个 版 本 内 存 操作 实现 得 不 够 精细 ， 例 如 数据 结构 设 
计 不 合理 ， 数 据 在 内 存 中 膨胀 很 多 倍 ， 导 致 大 查询 的 性 能 瓶颈 集中 在 
CPU， 列 式 存 储 的 优势 完全 没有 发 挥 出 来 。 这 就 告诉 我 们 ， 列 式 存 储 
的 前 提 是 设计 好 内 存 数据 结构 ， 把 CPU 操作 优化 好 ， 和 否则 ， 后 续 的 工 
作 都 是 无 用 功 。 为 了 更 好 地 支持 OLAP 应 用 ， 新 版 的 OceanBase 将 重新 
设计 列 式 存储 引擎 。 


10.5 特色 功能 


虽然 OceanBase 是 一 个 通用 的 分 布 式 天 系数 据 库 ， 然 而 ， 在 阿里 巴巴 集 
团 落 地 过 程 中 ， 为 了 满足 业务 的 需求 ， 也 实现 了 一 些 特色 功能 。 这 些 
功能 在 互联 网 应 用 中 很 常见 ， 然 而 ， 传 统 的 关系 数据 库 往 往 实 现 得 比 
较 低 效 。 本 下 介绍 其 中 两 个 具有 代表 性 的 功能 ， 分 别 为 大 表 左 连接 以 
及 数据 过 期 与 批量 删除 。 


10.5.1 大 表 左 连接 


大 表 左 连接 需求 来 源 于 淘宝 收藏 夹 业务 。 简 单 来 讲 ， 收 藏 夹 业务 包含 
两 张 表格 :收藏 表 collect_info 以 及 商品 表 collect_item， 其 中 ， 
collect_info 表 存储 了 用 户 的 收藏 信息 ， 比 如 收藏 时 间 、 标 签 等 ， 
collect_item 存 储 了 用 户 收藏 的 商品 或 者 店铺 的 信息 ， 包 括 价 格 、 人 和 气 
等 。collect_info 的 数据 条 目 达到 100 亿 条 ，collect_item 的 数据 条 目 接近 
10 亿 条 ， 每 个 用 户 平 均 收 藏 了 50~100 个 商品 或 者 店铺 。 用 户 可 以 按照 
收藏 时 间 浏 览 收藏 项 ， 也 可 以 对 收藏 项 按照 价格 、 人 气 排序 。 


目 然 想到 的 做 法 是 直接 采用 关系 数据 库 多 表 连 接 操作 实现 ， 即 根据 
collect_info 中 存储 的 商品 编号 (item_id) ， 实 时 地 从 商品 表 读 取 商 品 的 
价格 、 人 气 等 信息 。 然 而 ， 商 品 表 数据 量 太 大 ， 需 要 分 库 分 表 后 分 布 
到 多 台数 据 库 服务 器 ， 即 使 是 同一 个 用 户 收藏 的 商品 也 会 被 打 散 到 多 
台 服 务 嚣 。 某 些 用 户 收藏 了 几 千 个 商品 或 者 店铺 ， 如 果 需 要 从 很 多 全 
R 务 器 读 取 几 千 条 数据 ， 整 体 延 时 是 不 可 接受 的 ， 系 统 的 并 发 能 力也 


等 受 限 。 


二 


i 


男 外 一 种 第 见 的 做 法 古 做 元 余 ， 即 在 collect_info 表 中 见 余 丙 品 的 价格 、 
人 气 等 信息 ， 读 取 时 束 不 需要 读 取 collect_item 表 了 。 然 而 ， 热 门 商品 
可 能 被 数 十 万 个 用 户 收 藏 ， 每 次 价格 、 人 气 发 生变 化 时 都 需要 修改 数 
十 万 个 用 户 的 收藏 条 目 。 显 然 ， 这 是 不 可 接受 的 。 


这 个 问题 本 质 上 是 一 个 大 表 左 连接 (Left Join) 的 问题 ， 连 接 列 为 
item_id， 即 右 表 (商品 表 ) 的 主键 。 对 于 这 个 问题 ，OceanBase 的 做 法 


是 在 collect_info 的 基线 数据 中 元 余 collect_item 人 信息， 修改 增 量 中 将 
collect_info 和 collect_item 两 张 表格 分 开 存 储 。 商 品 价格 、 人 和 气 变 化 信息 
只 需要 记录 在 UpdateServer 的 修改 增 量 中 ， 读 取 操 作 步 又 如 下 : 


1) 从 ChunkServer 读 取 collect_info 表 格 的 基线 数据 〈 元 余 了 collect_item 
信息 ) 


2) 从 UpdateServer 读 取 collect_info 表 格 的 修改 增 量 ， 并 融合 到 第 1) 步 
的 结 采 中 。 


3) 从 UpdateServer 读 取 collect_item 表 格 中 每 个 收藏 商品 的 修改 增 量 
并 融合 到 第 2) 步 的 结果 中 。 


步 生成 的 结果 执行 排序 (按照 人 气 、 价 格 等) ， 分 页 等 操 


OceanBase 的 实现 方式 得 益 于 每 天 业务 低 峰 期 进行 的 每 日 合并 操作 。 
日 合并 时 ，ChunkServer 会 将 UpdateServer 上 collect_info 和 collect_item 表 
格 中 的 修改 增 量 融合 到 collect_info 表 格 的 基线 数据 中 ， 生 成 新 的 基线 数 
据 。 因 此 ，collect_info 和 collect_item 的 数据 量 不 至 于 太 大 ， 从 而 能 够 存 
放 到 单 台 机 器 的 内 存 中 提供 高 效 查询 服务 。 


10.5.2 数据 过 期 与 批量 删除 


很 多 业务 只 需要 存储 一 段 时 间 ， 比 如 三 个 月 或 者 半年 的 数据 ， 更 早 之 
前 的 数据 可 以 被 丢弃 或 者 转移 到 历史 库 从 而 节省 存储 成 本 。OceanBase 
文 持 数 据 目 动 过 期 功能 


OceanBase 线 上 每 个 表格 都 包含 创建 时 间 (gmt_create) 和 修改 时 间 
(gmt_modified) 列 。 使 用 者 可 以 设置 自动 过 期 规则 ， 比 如 只 保留 创建 
时 间或 修改 时 间 不 晚 于 某 个 时 间 点 的 数据 行 ， 读 取 操 作 会 根据 规则 过 
滤 这 些 失 效 的 数据 行 ， 每 日 合并 时 这 些 数据 行 会 被 物理 删除 。 


批量 删除 需求 来 源 于 OLAP 业 务 。 这 些 业务 往往 每 天 导入 一 批 数 据 ， 由 
于 业务 逻辑 复杂 ， 上 游 系 统 很 可 能 出 错 ， 导 致 某 一 天 导入 的 数据 出 现 
问题 ， 需 要 将 这 部 分 出 错 的 数据 删除 掉 。 由 于 导入 的 数据 量 很 大 ， 一 

条 删除 其 中 的 每 行 数据 是 不 现实 的 。 因 此 ，OceanBase 实 现 了 批量 
删除 功能 ， 有 具体 做 法 和 数据 自动 过 期 功能 类 似 ， 使 用 者 可 以 增加 一 个 
删除 规则 ， 比 如 删除 创建 时 间 在 某 个 时 间 段 的 数据 行 ， 以 后 所 有 的 读 
操作 都 会 目 动 过 滤 这 些 出 错 的 数据 行 ， 每 日 合并 时 这 些 出 错 的 数据 行 
会 被 物理 删除 。 


10.5.1 大 表 左 连接 


大 表 左 连接 需求 来 源 于 淘宝 收藏 夹 业 务 。 和 人 简单 来 讲 ， 收 藏 夹 业务 包含 
两 张 表格 : 收藏 表 collect_info 以 及 丙 品 表 collect_item， 其 中 ， 
collect_info 表 存储 了 用 户 的 收藏 信息 ， 比 如 收藏 时 间 、 标 签 等 ， 


collect_item 存 储 了 用 户 收藏 的 商品 或 者 店铺 的 信息 ， 包 括 价 格 、 人 和 气 
等 。collect_info 的 数据 条 目 达到 100 亿 条 ，collect_item 的 数据 条 目 接近 
10 亿 条 ， 每 个 用 户 平均 收藏 了 50~100 个 商品 或 者 店铺 。 用 户 可 以 按照 
收藏 时 间 浏 览 收藏 项 ， 也 可 以 对 收藏 项 按照 价格 、 人 和 气 排序 。 


目 然 想到 的 做 法 是 直接 采用 关系 数据 库 多 表 连 接 操作 实现 ， 即 根据 
collect_info 中 存储 的 商品 编号 (item_id) ， 实 时 地 从 商品 表 读 取 商 品 的 
价格 、 人 气 等 信息 。 然 而 ， 商 品 表 数据 量 太 大 ， 需 要 分 库 分 表 后 分 布 
到 多 台数 据 库 服 务 器 ， 即 使 是 同一 个 用 户 收藏 的 商品 也 会 被 打 散 到 多 
台 服 务 嚣 。 某 些 用 户 收藏 了 儿 千 个 商品 或 者 店铺 ， 如 果 需 要 从 很 多 台 
及 务 句 读 取 几 二条 数据 ， 整 体 延 时 是 不 可 接受 的 ， 系 统 的 并 发 能 力也 


等 受 限 。 


二 


y 


ES 


另外 一 种 各 见 的 做 法 是 做 元 余 ， 即 在 collect_info 表 中 元 余 商 品 的 价格 、 
人 气 等 信息 ， 读 取 时 束 不 需要 读 取 collect_item 表 了 。 然 而 ， 热 门 商品 
可 能 被 数 十 万 个 用 户 收 藏 ， 每 次 价格 、 人 气 发 生变 化 时 都 需要 修改 数 
十 万 个 用 户 的 收藏 条 目 。 显 然 ， 这 是 不 可 接受 的 。 


这 个 问题 本 质 上 是 一 个 大 表 左 连接 (Left Join) 的 问题 ， 连 接 列 为 
item_id， 即 右 表 (商品 表 ) 的 主键 。 对 于 这 个 问题 ，OceanBase 的 做 法 
是 在 collect_info 的 基线 数据 中 元 余 collect_item 信 息 ， 修 改 增 量 中 将 
collect_info 和 collect_item 两 张 表格 分 开 存 储 。 商 品 价格 、 人 气 变 化 信息 
只 需要 记录 在 UpdateServer 的 修改 增 量 中 ， 读 取 操 作 步 又 如 下 : 


1) 从 ChunkServer 读 取 collect_info 表 格 的 基线 数据 ( 见 余 了 collect_item 
言 息 ) 。 


百 v 心 ， 


2) 从 UpdateServer 读 取 collect_info 表 格 的 修改 增 量 ， 并 融合 到 第 1) 步 
的 结 采 中 。 


3) 从 UpdateServer 读 取 collect_item 表 格 中 每 个 收藏 商品 的 修改 增 量 ， 
并 融合 到 第 2) 步 的 结果 中 。 


4) 对 第 3 


) 步 生 成 的 结果 执行 排序 按照 人 气 、 价 格 等 ) ， 分 页 等 操 
作 并 返回 给 客 


户 端 。 


OceanBase 的 实现 方式 得 益 于 每 天 业务 低 峰 期 进行 的 每 日 合并 操作 。 每 
日 合并 时 ，ChunkServer 会 将 UpdateServer 上 collect_info 和 collect_item 表 
格 中 的 修改 增 量 融合 到 collect_info 表 格 的 基线 数据 中 ， 生 成 新 的 基线 数 
据 。 因 此 ，collect_info 和 collect_item 的 数据 量 不 至 于 太 大 ， 从 而 能 够 存 
放 到 单 台 机 器 的 内 存 中 提供 高 效 查询 服务 。 


10.5.2 数据 过 期 与 批量 删除 


很 多 业务 只 需要 存储 一 段 时 间 ， 比 如 三 个 月 或 者 半年 的 数据 ， 更 早 之 
前 的 数据 可 以 被 丢弃 或 者 转移 到 历史 库 从 而 节省 存储 成 本 。OceanBase 
文 持 数 据 目 动 过 期 功能 。 


OceanBase 线 上 每 个 表格 都 包含 创建 时 间 (gmt_create) 和 修改 时 间 

(gmt_modified) 列 。 使 用 者 可 以 设置 自动 过 期 规则 ， 比 如 只 保留 创建 
时 间或 修改 时 间 不 晚 于 某 个 时 间 点 的 数据 行 ， 读 取 操 作 会 根据 规则 过 
滤 这 些 失 效 的 数据 行 ， 每 日 合并 时 这 些 数 据 行 会 被 物理 删除 。 


批量 删除 需求 来 源 于 OLAP 业 务 。 这 些 业务 往往 每 天 导入 一 批 数据 ， 由 
于 业务 逻辑 复杂 ， 上 游 系 统 很 可 能 出 错 ， 导 致 录 一 天 导入 的 数据 出 现 
问题 ， 需 要 将 这 部 分 出 错 的 数据 删除 掉 。 由 于 导入 的 数据 量 很 大 ， 一 
条 一 条 删除 其 中 的 每 行 数据 是 不 现实 的 。 因 此 ，OceanBase 实 现 了 批量 
删除 功能 ， 具 体 做 法 和 数据 目 动 过 期 功能 类 似 ， 使 用 者 可 以 增加 一 个 
删除 规则 ， 比 如 删除 创建 时 间 在 某 个 时 间 段 的 数据 行 ， 以 后 所 有 的 读 
操作 部 会 目 动 过 滤 这 些 出 错 的 数据 行 ， 每 日 合并 时 这 些 出 蚀 的 数据 行 
会 被 物理 删除 。 


第 11 章 质量 保证 、 运 维 及 实践 


OceanBase 系 统一 直 在 不 断 演化 ， 需 要 在 代码 不 断 变化 的 过 程 中 保持 系 
统 的 稳定 性 。 因 此 ， 合 理 的 质量 保证 体系 关乎 系统 的 成 败 。 为 了 保证 
系统 质量 ，OceanBase 做 了 大 量 工作 ， 在 RD ( 指 开发 工程 师 ) 开发 、 
QA (〈 指 测试 工程 师 ) 测试 、 上 线 试 运行 各 个 阶段 对 系统 质量 把 关 。 


系统 的 性 能 和 稳定 性 得 到 保障 后 ， 还 需要 具备 恨 好 的 可 运 维 性 。 
OceanBase 借 鉴 了 Oracle 数 据 库 中 的 “系统 表 ? 机 制 ， 将 表格 Schema、 监 


挥 数据 、 系 统 内 部 状态 等 信息 你 存 到 内 部 系统 表 中 ， 从 而 能 够 基于 系 
统 表 构 建 监 控 界 面 、 运 维 管理 界面 以 及 运 维 工 具 。 


最 后 ， 系 统 只 有 通过 上 线 使 用 才能 证 明 自 己 并 发 现 设计 和 实现 上 的 不 
足 。 本 章 首先 介绍 OceanBase 的 质量 保证 体系 和 运 维 体系 ， 接 着 以 收藏 
夹 、 天 狐 评 价 和 直通 车 报表 为 例 介 绍 OceanBase 系 统 的 使 用 情况 。 

后 ， 笔 者 总 结 了 实践 过 程 中 的 经 验 教 训 。 


11.1 质量 保证 


互联 网 基础 产品 的 质量 保证 不 只 是 QA 的 事情 ， 从 RD 设计 、 编 码 开始 ， 
系统 提 测 ， 直 至 最 后 上 线 ， 每 个 环节 都 需要 重视 质量 保证 工作 。 
OceanBase 的 质量 保证 体系 如 图 11-1 所 示 。 


系统 提 测 
( build rpm 包 ) 


开发 & 单 测 & 
联 调 & 快速 测试 


- 上 油 [二 测试 框架 回归 
QA 压力 测试 ( 接口 、 功 能 、 容 灾 ) 


Benchmark 


I 


OB 灰 度 上 线 业务 压力 测试 / 
( 试 运 行 ) 线 上 流量 回放 


OB 版 本 发 布 


图 11-1 OceanBase 质 量 保证 体系 


一 个 新 版 本 需要 经 过 开发 => 单元 测试 多 快速 测试 =>RD (开发 工程 
师 ) 压力 测试 => 系统 提 测 =>QA (测试 工程 师 ) 接口 、 功 能 、 容 灾 、 
压力 测试 => 兼容 性 测试 = > Benchmark 测 试 才 能 最 终 发 布 ， 其 中 ，RD 
压力 测试 和 兼容 性 测试 是 可 选 的 。 发 布 的 痢 版 本 还 需要 经 过 业务 压力 
测试 或 者 线 上 流量 回放 才能 上 线 试 运行 ， 试 运行 一 段 时 间 后 没有 发 现 


问题 才能 最 终 上 线 。 


11.1.1 RD 开发 


系统 Bug 骏 露 越 早 修复 代价 越 低 ， 开 发 工程 师 是 产生 Bug 的 源头 ， 开 发 
阶段 主要 通过 编码 规范 、 代 码 审核 (Code Review) 、 单元 测试 保证 代 
码 质量 。 另 外 ， 系 统 提 测 前 RD 需要 主动 执行 快速 测试 (quicktest) ， 
从 而 避免 返工 。 


1. 编 码 规范 


编码 规范 规定 了 函数 、 变 量 、 类 型 的 命名 规则 ， 保 证 统一 的 注释 和 排 
版 风格 。 除 此 之 外 ， 为 了 避免 C/C++ 上 服务 需 端 编程 销 见 缺陷 ， 
OceanBase 编 但 规范 还 制定 了 一 些 规则 ， 如 下 所 示 : 


1) 一 个 函数 只 能 有 一 个 入 口 和 一 个 出 口 。 不 允许 在 函数 中 使 用 goto 语 
句 ， 也 不 允许 函数 中 途 return 返 回 。 


如 图 11-2 所 示 ， 
是 不 允许 的 ， 可 以 修改 为 右边 的 方式 。 
优秀 的 开源 项 目 都 允许 函数 中 途 returmn。 之 所 以 这 
函数 执行 


左边 的 代码 中 途 调用 了 return， 在 OceanBase 编 码 规范 中 


alloc memory(); 
下 去 《3 区 0 


{ 


do somethingl(); 


free memory(); 
return true; 
else 


{ 


do something2(); 


free memory(); 
return false; 


条 规定 有 一 定 的 争议 ， 很 多 
么 规定 ， 是 为 了 确保 

过 程 中 申请 的 资源 被 释放 掉 。 对 于 分 布 式 存储 系统 ， 
了 的 重要 性 远 远 高 于 代码 写 得 更 漂 


boolean ret = true; 
alloc memory(); 
1£ (区 03 
{ 
do _ something1l(); 
ret = true; 
else 
do something2(); 
ret = false; 


} 


free memory!(); 


return ret,; 


代码 稳 


图 11-2 单 入 口 单 出 口 


2) 禁止 在 函数 中 抛 异 常 ， 谨 慎 使 用 STL、boost。C/C++ 编 程 的 麻烦 之 
处 在 于 资源 管理 ， 尤 其 是 内 存 管理 。STL、boost 库 接口 容易 使 用 ， 
够 提高 编码 效率 ， 但 是 内 存 管 理 混乱 ， 不 易 调试 ， 晶 大 多 数 开发 工程 
师 不 了 解 其 内 部 实现 ， 不 适用 于 高 性 能 服务 器 的 开发 。 


3) 资源 管理 做 到 可 控 。 所 有 的 内 存 申 请 操作 都 需要 经 过 OceanBase 全 
局 内 存 管理 历 ， 不 允许 直接 在 代码 中 调用 new/malloc 申 请 内 存 。 另外 ， 


系统 初始 化 时 启动 所 有 线程 ， 执 行 过 程 中 不 允许 动态 启动 额外 的 线 
程 。 


4) 每 个 可 能 失败 的 函数 都 必须 返回 错误 码 ，0 表 示 成 功 ， 其 他 值 表示 
出 错 。 调 用 者 需要 仔细 、 全 面 地 处 理 调用 函数 返回 的 每 个 错误 码 。 


5) 所 有 的 指针 使 用 前 都 必须 判 空 ， 不 允许 使 用 assert[1] 语 句 替 代 错 误 
仿 查 。 这 条 规定 是 为 了 保证 程序 执行 过 程 中 出 现 异 常情 况 时 能 够 打印 


彰 误 日 志 而 不 是 core dump 。 


6) 不 允许 使 用 strcpy/strcat/strcpy/sprintf 等 字符 串 操作 函数 ， 而 改 用 对 
应 的 限制 字符 串 长 度 函 数 : strncpy/strncat/strncpy/snprintf， 从 而 防止 字 
符 串 操作 越界。 


7) 严格 要 求 自 己 ， 编 译 时 要 开启 GCC 所 有 报警 开关 ， 例 如 : -Wall- 
Werror-Wextra-Wunused-parameter-Wformat-Wconversion-Wdeprecated ° 


代码 提交 前 需要 确保 解决 所 有 的 报警 。 
2. 代 码 审核 


OceanBase 开 发 时 要 求 所 有 代码 提交 前 至 少 由 一 人 审核 ， 对 于 关键 代码 
改动 ， 例 如 ， 紧 急 修 复线 上 Bug， 需 要 架构 师 和 各 个 小 组 的 技术 负责 


参与 。 


代码 审核 工作 主要 包含 两 个 部 分 : 编码 风格 审核 ， 比 如 是 否 符合 编码 
规范 ， 接 口 设 计 是 否 合理 ， 以 及 实现 逻辑 审核 。 其 中 ， 实 现 逻 辑 审核 
征 难点 ， 要 求 理解 每 个 代码 实现 细节 ， 并 给 出 建设 性 意见 。 每 个 刚刚 
加 入 团队 的 新 人 都 会 分 配 一 个 师兄 ， 师 兄 的 其 中 一 项 职责 就 是 审核 新 
人 的 代码 ， 与 新 人 一 起 共同 对 代码 质量 负责 。 


OceanBase 采 用 开源 的 ReviewBoard (http://www.reviewboard.org/) 作为 
代码 审核 系统 ， 如 图 11-3 所 示 。 


Review Board 
My Dashboard New Review Request - All review requests Groups Submitters Search Products 


Starred Reviews All Incoming Review Requests 
Outgoing Reviews Ssummary . 
Incoming Reviews [/branches/dev newfeature ] 桂 程 棕 存 的 block 分 配 避 
To Me Ldev sql bugfix] 包 决 mergeserver 不 能 Kill 的 问题 
all_user [sql misc]JDBC 连 接口 6 的 相关 处 理 
OceanBase Ldev sql 权限 控制 ] 系 绪 权限 信息 更 新 机 制 | 
oceanbasetest [rdevw bug] 初 前 让 权限 后 没有 release schema 
All My Requests Ldev sql 梭 限 初 冶 化 ] 祝 限 初 敬 化 调整 
[branches/0.31 newfeature] 备 机 收 到 日 志 后 史 醒 replay 续 程 
[dev new_feature] 重 构 SQL 解 析 相 关 的 内 存 管 理 
Ldev sql 权 限 控制 ] 系 统 户 动 权限 控制 初始 化 
[sql misc]sq 中 添 j 叹 持 释 的 处 理 
[sql misc] 统一 sql 语 可 prepare 与 协议 的 prepare 的 代码 
iin nchesjdev newfeature] 可 以 指定 备 机 在 收 到 日 志 后 回放 完 或 刷 盘 完 之 


join_| bh _count 孝 置 过 大 导致 ObGetParam 攻 出 

Ldev sql 权限 控制 ] 权限 字段 拆 成 多 个 字段 后 ， 臣 改 转 create Use 的 对 各 
[dev refactoring] DObArray 卉 加 模板 参数 BlockAllocator 
[branches/dev/NewFeatrue] 侈 许 外 部 传 入 内 存 耸 西 殿 失 扣 bMutator，UPS 
的 Session_ctx 内 存 由 fifo_allocator 分 本 

[sql miscjshow warnings/show grants 实 现 

Ldev sql 权限 控制 ] 将 权限 字段 从 1 个 拆 成 每 个 椒 限 一 个 字段 ， 当 一 个 用 户 被 
grant 多 个 椒 限 时 便于 将 grant 清 句 转 成 sq! 滞 句 

[dev bugfix] 修复 ObSchem3aManagerV2 在 启动 时 占用 大 学 内 存 的 问题 
[branches/dev/NewFeatrue] ObMutator 措 加 clea[ 方 法 为 DbStringBuf 效 
加 舍 入 PageArena 的 构 壬 闲 落 

[new feature] importserver 支 持 并 发 多 个 号 六 任务 并行 运行 MapReduce 

育 旷 0.3.1 号 入 之 后 无 法 立即 合并 的 问题 

[dev sql 椒 限 ]drop user 语 名 转换 和 一 个 bug 修 复 


图 11-3 OceanBase ReviewBoard 
3. 单 元 测试 


OceanBase 采 用 google test 以 及 google mock 进 行 单元 测试 。 单 元 测试 的 
关键 点 在 于 系统 接口 设计 时 考虑 可 测 性 ， 并 提高 每 个 开发 人 员 的 单元 


测试 意识 。 


OceanBase 单 元 测试 已 接 入 一 淘 网 内 部 开发 的 Toast 平 台 ， 每 天 晚上 会 目 
动 回 归 所 有 的 单元 测试 用 例 。Toast 平 台 说 明文 档 见 : 


http://testing.etao.com/book/export/html/285 ° 
4. 快 速 测试 (quicktest) 


快速 测试 选取 所 有 测试 用 例 的 一 个 子 集 ， 这 个 子 集 中 的 每 个 用 例 执行 
都 很 快 ， 从 而 做 到 快速 回归 。 快 速 测试 部 署 成 定时 任务 ， 每 天 自动 回 
归 ，RD 提 交 某 个 功能 的 代码 之 前 也 会 主动 运行 快速 测试 ， 从 而 使 得 主 
干 代 码 保 持 基 本 稳定 。 


5.RD 压 力 测试 


(1) 分 布 式 存储 引擎 压力 测试 


分 布 式 存储 引擎 压力 测试 工具 包含 两 个 : syschecker 以 及 mixed_test 。 


在 syschecker 工 具 中 ， 多 个 客户 疹 并 发 读 写 一 行 或 者 多 行 数据 ， 并 对 读 
取 到 的 每 行 数据 进行 校 验 。 对 于 每 行 数据 ， 其 中 的 每 一 列 者 对 应 一 个 

辅助 列 ， 二 者 数据 之 和 为 0° 假设 某 列 数据 出 错 ，syschecker 能 够 很 快 

仿 测 出 来 。 


syschecker 写 入 速度 很 快 ， 能 够 发 现 分 布 式 存储 引擎 中 的 大 部 分 问题 ， 
然而 ，syschecker 只 校 验 单行 数据 ， 不 校 验 多 行 数据 之 间 的 关系 。 
此 ，syschecker 无 法 发 现 某 行 数 据 全 部 丢失 的 情况 。mixed_test 正 是 用 来 
解决 这 个 问题 的 ， 它 不 仅 对 每 行 数据 进行 校 验 ， 还 校 验 多 行 数据 之 间 
的 关系， 能 够 检测 出 某 行 数据 全 部 丢失 的 情况 。 当 然 ，mixed_test 写 入 
速度 较 慢 ，syschecker 和 mixed_test 两 个 工具 总 是 配合 使 用 ， 各 有 优势 。 


(2) 数据 库 功 能 压力 测试 


数据 库 功 能 压力 测试 工具 包含 两 个 : sqltest 以 及 bigquery 。 


esdltest 工 具 测 试 时 将 指定 一 些 SQL 语 句 ，sqltest 工 具 会 将 这 些 语句 分 别 
发 送 给 MySQL 以 及 OceanBase 数 据 库 。 如 果 二 者 的 执行 结果 相同 ， 则 
认为 sqltest 测 试 通过 ; 否则 ， 测 斌 失败。 


ebigquery 工 具 是 sqltest 工 具 的 补充 ， 专 门 用 于 测试 OLAP 并 发 查询 功 
能 。bigquery 中 每 个 查询 涉及 的 数据 往往 跨 多 个 子 表 ， 能 够 触发 
OceanBase 的 并 发 查询 功能 。 当 然 ，bigquery 灵 活性 不 够 ， 只 能 执行 特 


定 的 SQL 语句 ， 而 sqltest 能 够 执行 OceanBase 文 持 的 所 有 SQL 语句 。 
此 ，bigquery 和 sqltest 两 个 工具 也 是 配合 使 用 ， 各 有 优势 。 


OceanBase 早 期 测试 俯 源 闫 重 不 足 ， 因 此 ， 要 求 开 发 在 提 测 前 必须 运行 
一 过 压力 测试 。 然 和 而， 这些 压力 测试 工具 的 维护 非常 耗 时 。2013 年 开 
始 ，RD 压 力 测 试 工具 隶 步 上 废弃， 其 中 的 测试 用 例 逐 步 融 合 到 QA 压力 测 
试 工具 中 。 


[1]C 语 言 中 的 宏 定义 ， 如 有 果 传 入 条 件 不 成 立 ， 程 序 直 接 core dump 退 
出 。 


11.1.2 QA 测试 


RD 提 测 新 版 本 后 ， 进 入 QA 测试 阶段 。QA 首 先 快速 执行 一 次 快速 测 
试 ， 如 果 快 速 测 试 失败 ， 则 通知 RD 修复 问题 后 重新 提 测 。 否 则 ， 进 入 
后 续 的 接口 、 功 能 、 容 灾 、 压 力 测试 。 如 果 系 统 设计 变化 较 大 ， 还 需 
要 执行 专门 的 兼容 性 测试 。 需 要 注意 的 是 ，OceanBase 开 发 模式 逐步 走 
癌 敏捷 化 ，QA 往 往 在 正式 提 测 前 就 已 经 完成 了 一 部 分 测试 用 例 的 执 


一 


休 。 


1. 搂 口 、 功 能 、 容 灾 测 试 


(1) 接口 测试 


使 用 者 通过 JDBC/MySQL C 容 户 端 库 访 问 OceanBase。 由 于 OceanBase 
访问 协议 兼容 MySQL 协 议 ， 因 此 ， 直 接 将 MySQL 数 据 库 的 官方 测试 工 
具 和 部 分 官方 测试 用 例 移 植 过 来 测试 OceanBase 。 


(2) 功能 、 容 灾 测 试 


OceanBase 包 仿 很 多 功能 ， 例 如 每 日 合并 、 人 负载 均衡 、 新 机 器 上 线 、 主 
钾 同 步 、 主 UpdateServer 远 举 等 。 功 能 测试 会 构造 场景 触发 这 些 功 能 ， 
并 引入 各 种 异常 ， 如 阻塞 网 络 、 杀 死 服务 器 进 程 、 模 拟 磁 副 故 障 等 来 
验证 系统 的 容 灾 能 力 。 


OceanBase 的 接口 、 功 能 、 容 灾 用 例 都 实现 了 目 动 化 和 文本 化 。 目 动 化 
的 好 处 在 于 无 须 人 工 介 入 ， 文 本 化 的 好 处 在 于 方便 添加 和 维护 测试 用 
例 ， 从 而 适应 系统 快速 开发 的 需要 。 下 面 是 UpdateServer 其 中 一 个 主 备 
切换 测试 用 例 : 


# 部 署 一 个 OceanBase 集 群 
deploy obl=OBI(cluster=1211); 
deploy ob1.reboot; 

sleep 10; 


# 连 接 到 其 中 一 台 MergeServer(ms0) 


deploy ob1.connect connl ms0 admin admin test; 
connection conn1; 

# 执 行 DDL( 建 表 ) 以 及 DML 语 句 (insert/update/delete) 
create table t1(pk int primary keycl varchar); 

insert into t1 values(2, '2_abc'’), (3, '3_abc), (4, '4_abc'), (5, '5_abc'"); 
Update tl set c1='5 UPDATE'where pk=5; 

delete from t1 where pk=2; 

# 读 取 表格 内 容 

select*from t1; 

# 获 取 原 有 的 主 UpdateServer 的 地 址 并 记录 为 $a 
let$a=deploy_get_value(ob1.get_master_Ups); 

# 大 闭 主 UpdateServer 并 等 待 30 秒 

deploy ob1.stop_master_ups; 


sleep 30; 


# 获 取 新 的 主 UpdateServer 的 地 址 记录 为 $b 
let$b=deploy_get_value(ob1.get_master_Ups); 
# 读 取 表 格 内 容 

select*from t1; 

# 比 较 $a 和 $b， 看 二 者 是 否 不 同 


if($a! =$b) 


--echo success 


deploy ob1.stop; 

执行 步骤 如 下 : 

1) 部 署 一 个 OceanBase 集 群 ， 集 群 名 称 为 ob1。 
2) 连接 到 其 中 一 台 MergeServer (ms0) 


3) 执行 DDL ( 建 表 ) 以 及 DML 语 句 (insert/update/delete) 
create_table 语 句 创 建 了 一 个 包含 两 列 的 表格 t1， 其 中 ，pk 列 为 主键 。 


DML 语 句 对 表格 tt 执行 增 、 删 、 改 操作 。 


4) 读 取 表格 t1 中 的 内 容 ， 获 取 原 有 的 主 UpdateServer 的 地 址 并 记录 为 
$a。 


5) 关闭 主 UpdateServer 并 等 待 30 秒 。 正 常情 况 下 ，OceanBase 将 自动 发 
生 主 备 切 换 ， 主 UpdateServer 的 地 址 会 发 生变 化 ， 且 仍然 能 够 正常 读 取 
表格 t1 中 的 内 容 。 


6) 再 次 读 取 表 格 t 中 的 内 容 ; 获取 新 的 主 UpdateServer 的 地 址 并 记录 为 
$b 。 


7) 比较 主 备 切换 前 后 的 主 UpdateServer 地 址 ， 看 二 者 是 否 不 同 。 


每 个 测试 用 例 对 应 一 个 预期 结果 文件 ，OceanBase 的 测试 框架 将 执行 该 
测试 用 例 并 生成 一 个 运行 结 来 文件 。 如 果 运 行 结果 文件 和 预期 结 末 文 
件 完全 相同 ， 则 测试 用 例 通过 ; 否则， 测试 用 例 不 通过 ， 测 试 框架 将 
输出 预期 结果 文件 和 运行 结果 文件 的 差异 。 


2. 压 力 测试 


分 布 式 存储 系统 中 很 多 问题 只 有 在 高 并 发 或 者 大 数据 量 的 情况 下 才 会 
出 现 。OceanBase 压 力 测试 的 原理 是 持续 不 断 地 写 入 数据 ， 并 在 这 个 过 
程 使 用 大 量 客户 端 读 取 并 验证 数据 。 假 设 线 上 的 数据 量 为 2TB， 查 询 次 
数 为 每 秒 10000 次 ， 那 么 ， 只 要 测试 环境 的 数据 量 为 4~10TB 〈 线 上 数 


据 量 的 2 一 5 倍 ) ， 测 试 环 境 的 读 压 力 为 每 秒 20000~50000 次 〈 线 上 读 
压力 的 2~5 倍 ) ， 那 么 ， 基 本 可 以 认为 系统 是 稳定 的 。 


QA 压力 测试 工具 融合 了 11.1.1 太 中 提 到 的 RD 压力 测试 工具 的 测试 用 
例 ， 且 文 持 上 自动 持续 回归 和 测试 用 例文 本 化 ， 从 而 降低 维护 成 本 。 另 
外 ，QA 讨 力 测 试 工 具 还 文 持 容 灾 操 作 ， 例 如 杀 死 某 个 服务 右 进 程 ， 发 
起 主 备 切换 ， 等 等 。 


3.Benchmark 测 试 


Benchmark 测 试 是 具有 代表 性 的 SQL 语句 ， 例 如 读 写 一 行 数 据 ， 读 写 一 
批 数 据 但 不 排序 ， 读 写 一 批 数 据 且 排序 ， 计 算 count/sum/distinct， 等 值 
连接 ， 等 等 。 测 试 团队 定期 发 布 Benchmark 测 试 报告 ， 如 果 发 现 系 统 性 
能 相 比 前 一 次 有 明显 提升 或 者 下 降 ， 需 要 开发 团队 说 明 其 中 的 原因 。 
另外 ， 每 个 版 本 正式 发 布 时 需要 提供 一 份 Beanchmark 测 试 报告 。 


4. 兼 容 性 测试 


OceanBase 开 发 过 程 中 保证 兼容 应 用 以 前 使 用 的 接口 ， 如 果 系 统 做 了 较 
大 的 设计 重 构 ， 需 要 执行 兼容 性 测试 确保 使 用 过 的 接口 不 会 出 现 问 


题 。 


男 外 ，OceanBase 文 持 主 备 两 个 集群 ， 系 统 升级 时 往往 先 升级 备 集群 ， 
如 果 没 有 发 现 问题 ， 才 会 升级 主 集群 。 升 级 过 程 中 两 个 集群 会 部 署 不 


同 版 本 的 程序 ， 兼 容 性 测试 需要 确保 这 种 部 署 方式 能 够 正常 工作 ， 且 
新 版 本 出 现 问 题 时 ， 需 要 能 够 回 滚 到 老 版 本 。 

11.1.3 试 运 行 

互联 网 产品 开发 的 理念 是 “小 步 快 跑 ， 快 速 试 错 ”"，QA 测 试 阶段 不 可 能 


发 现 所 有 的 Bug， 很 多 问题 需要 等 到 系统 上 线 试 运行 阶段 才能 发 现 。 试 
运行 部 分 有 如 下 几 步 。 


1. 业 务 压 力 测 试 


业务 第 一 次 上 线 时 ， 无 法 执行 线 上 流量 回放 测试 ， 此 时 ， 应 用 方 往往 
会 和 OceanBase 团 队 一 起 对 业务 进行 一 次 压力 测试 。OceanBase 测 试 人 
员 首 移 将 应 用 初始 数据 导入 到 一 个 模拟 环境 ， 应 用 方 会 选取 儿 个 经 常 
使 用 的 业务 场景 ， 对 OceanBase 系 统 进行 压力 测试 。 


2. 线 上 流量 回放 


系统 试 运行 之 前 ， 往 往 需要 构造 环境 模拟 线 上 请 求 。OceanBase 测 试 人 
员 会 将 线 上 环境 的 数据 导入 到 一 个 模拟 环境 ， 并 在 模拟 环境 回放 线 上 
的 读 写 请 求 。 线 上 流量 回放 工具 文 持 回放 任意 倍数 的 线 上 请 求 ， 从 而 
发 现 各 种 问题 ， 包 括 接口 使 用 、 性 能 、 人 负载 均衡 等 方面 的 问题 。 线 上 
流量 回放 是 OceanBase 上 线 试 运行 的 最 后 一 道 防线 。 


3. 灰 度 上 线 


系统 通过 了 所 有 的 测试 环节 便 可 以 上 线 试 运行 了 ， 这 个 过 程 又 称 为 灰 
度 上 线 。 


如 果 应 用 从 别 的 数据 库 迁 移 到 OceanBase， 那 么 ， 灰 度 上 线 阶段 会 同时 
写 两 份 数据 ， 一 份 写 到 之 前 的 系统 ， 一 份 写 到 OceanBase， 这 个 阶段 应 
用 方 还 会 对 两 个 系统 的 数据 进行 数据 比 对 。 如 果 没 有 问题 ， 则 将 读 流 
量 逐 步 切入 到 OceanBase。 


如 果 应 用 从 OceanBase 老 版 本 升级 到 新 版 本 ， 那 么 ， 灰 度 上 线 阶段 会 f 
先 升 级 备 集群 到 狐 版 本 ， 并 将 读 流量 逐步 切入 。 如 有 果 没 有 发 现 问题 ， 

则 将 备 集群 切换 为 主 集群 ， 由 新 版 本 提供 读 写 服 务 ， 最 后 再 升级 原先 
的 主 集群 到 新 版 本 。 备 集群 切换 为 主 集 群 的 风险 较 高 ， 如 果 发 现 问 

题 ， 需 要 立即 切换 回 老 版 本 。 整 个 升级 过 程 需 要 通过 之 前 提 到 的 兼容 
性 测试 模拟 。 


11.2 使 用 与 运 维 


OceanBase 不 是 设计 出 来 的 ， 而 是 在 使 用 过 程 中 不 断 进化 出 来 的 。 
此 ， 系 统 使 用 以 及 运 维 的 方便 性 至 关 重 要 。 


OceanBase 的 使 用 者 是 业务 系统 开发 人 员 ， 并 交 由 专门 的 OceanBase 
DBA 来 运 维 。 为 了 方便 业务 使 用 ，OceanBase 实 现 了 SQL 接口 且 兼 容 
MySQL 协 议 ， 从 而 融入 到 MySQL 开 源 生 态 圈 。MySQL 大 部 分 管理 工 
具 ， 例 如 MySQL 客 户 端 ，MySQL admin， 能 够 在 OceanBase 系 统 中 直接 


使 用 。 画 外 ，OceanBase 将 系统 运 维 、 监 欣 相 天 的 内 部 信息 存放 到 内 部 
的 系统 表 中 ， 从 而 方便 运 维 、 监 欣 系 统 获取 。 


11.2.1 使 用 


OceanBase 早 期 版 本 只 允许 通过 Java 或 者 C API 接 口 访问 ， 新 版 本 增加 了 
SQL 文 桂 ， 且 兼容 MySQL 客 户 端 访问 协议 。OceanBase 推 荐 用 户 使 用 
SQL， 但 老 应 用 仍然 可 以 使 用 以 前 的 Java API 访 问 OceanBase。 下面 介 
绍 儿 个 访问 与 使 用 场景 。 


1.MySQL 客 户 端 连接 


如 图 11-4 所 示 ， 使 用 者 采用 MySQL 客 户 端 连接 OceanBase。 通 过 MySQL 
客户 端 可 以 查看 系统 已 有 的 表格 、 表 格 schema， 执 行 select、update、 
insert、delete 等 SQL 语句 ， 查 看 系统 内 部 状态 ， 以 及 发 送 OceanBase 集 
群 运 维 命令 。 图 中 首先 通过 create table 命 令 创建 一 张 名 称 为 test 的 表 

格 ， 表 格 包含 两 列 : id 和 name， 其 中 id 为 主键 。 接 着 ， 往 表格 中 写 入 两 
行 记 录 (1，"alice") ， (2,，"bob") 。 最 后 ， 通 过 select 语 句 读 取 这 两 
行 数据 。 


Commands end with ; 


5， 5,1 OceanBase 0.4,1.2 (ri2220) (Built Feb 26 2016 15:;02:19) 


help:” or Wh for help. Type "nc to clear the current input statement. 


woul drop table tes st 
了 DK, 0 rows | (a .2 sec) 


> create table test(id int Primary keyw, name varchar Gd11 1 
affected (0Q.43 sec) 


: from test; 


sec) 
1» 1n3 已 工 士 eh Es 已 位 stl, alice ), 
er OK, 


> insert into test wa ob: 
1 row affected ( 


| Tiame | 
二 -一 一 一 一 一 一 十 
1 | alice | 
2| bp | 
-一 一 一 一 


2 roOws in set (0.01 seci) 


图 11-4 采用 MySQL 客 户 端 连接 OceanBase 

2.JDBC 访 问 (JDBC template) 

Java 应 用 通过 标准 JDBC 访 问 OceanBase， 代 码 如 下 所 示 : 
ObGroupDataSource groupSource=new OBGroupDataSource(); 


groupSource.setUserName("user");// 设 置 用 户 名 


groupSource.setPasswd("pass");// 设 置 密码 


groupSource.setDbName("test");//OceanBase 不 支持 db， 这 里 可 以 填 任意 
值 


groupSouorce.setConfigURL(ob_addr_url);// 设 置 OceanBase 集 群 的 地 址 
groupSource.init();// 初 始 化 data source 

JdbcTemplate jtp=new JdbcTemplate(); 
jtp.setDataSource(groupSource);// 设 置 jdbc template 依 赖 的 data source 
String sql="select 1 from dual"; 

int ret=jtp.queryForInt(sq]);// 执 行 SQL 查 询 

3.Spring 集 成 

可 以 通过 将 OceanBase DataSource 集 成 到 Spring 中 ， 配 置 如 下 : 

< bean id="groupDataSource" 
class="com.alipay.oceanbase.ObGroupDataSource" 

init-method="init" > 


< property name="username"value="user"/>> 


< property name="passwd"value="pass"/> 
< property name="dbName"value="test"/> 
< property name="configURL"value=ob_addr_url/> 


</bean> 


C 应 用 通过 OceanBase C 客 户 端 访问 OceanBase， 使 用 方式 与 MySQL C 客 
户 端 完全 一 致 ， 代 码 如 下 : 


MYSQL mysq]; 
mysqlL_init(&mysqD; /初始 化 


mysql_real_connect(& mysql,ob_url,ob_user,ob_pass, NULL, 0, NULL, 
0); /连接 OceanBase 数 据 库 


mysql_real_query( 信 mysql,sql,strlen(sq])); /执行 SQL 查询 
MYSQL_RES*res=mysdql_store_result(&mysqD; /获取 SQL 查询 结果 集 


/处 理 SQL 查 询 返 回 的 结果 集 


while(MYSQL_ROW row=mysql_fetch_row(res)) /从 结果 集 读 取 一 行 数 
据 


{ 

// 处 理 结 来 集中 的 一 行 结 

} 

mysql_free_result(res); // 释 放 结 果 集 
mysqlL_close(&zmysqD; /关闭 连接 


当然 ， 应 用 可 能 会 在 客户 端 维护 OceanBase 连 接 池 ，Java 频 用 还 可 能 会 
使 用 其 他 持久 层 框架 ， 例 如 iBatis。 由 于 OceanBase 兼 容 JDBC 和 MySQL 
C 客 户 端 ， 使 用 MySQL 的 应 用 无 须 修改 代码 就 能 搁 入 OceanBase。 


11.2.2 运 维 


OceanBase 内 部 实现 了 系统 表 机 制 ， 用 于 存储 监控 以 及 运 维 相关 的 信 
恩 。 内 部 系统 表 包 合 的 内 容 如 下 : 


e 数 据 字 典 : 表格 的 定义 以 及 表格 之 间 的 关系 、 用 户 以 及 权限 信息 ; 
e 服 务 融 列表 : 集群 中 每 种 角色 所 在 的 服务 器 列表 ; 


e 配 置信 息 : 集群 中 每 侣 服务 紫 的 配置 信息 .; 


e 内 部 状态 : 每 台 服 务 郁 的 读 写 次 数 、 读 写 延 时 、 缓 存 命 中 率 、 子 表 个 
数 、 内 存 、 磁 盘 、CPU 使 用 情况 、 请 求 关 键 路 径 时 间 消 耗 ， 每 日 合并 


状态 等 ; 


基于 内 部 系统 表 ， 可 以 开发 各 种 方便 的 OceanBase 运 维 功能 ， 如 
OceanBase 数 据 库 会 话 (Session) 管理 ， 读 写 性 能 实时 监控 工具 、 监 控 


平台 等 。 


图 11-5 是 OceanBase 某 线 上 应 用 平均 读 取 延 时 的 监控 岁 ， 包 括 单行 读 取 
平均 延 时 (average_succ_get_time) 以 及 多 行 扫描 平均 延 时 
(average_succ_scan_time) 两 个 指标 ， 且 单位 均 为 微 秒 。 监 控 图 包含 
三 种 数据 :当前 数据 (currval) ， 昨 天 数据 (lastval) 以 及 上 周 数据 
(baseval) ,便于 对 比 。 由 于 监控 、 运 维 工具 变化 较 快 ， 这 里 不 做 太 


2 


OceanBasel64022.cm6 - average suUcc get time - SYSOBCKMG 


B 
“60, D9 2 3 LE, 2 BO 0 BB BE 2 I LB 2 “0 
From 2012-11-099 00:57:00 to 2912-11-11 80:52:35 


国 vb ms asgt currval Current. 8.20 k Average: 8.21 k 
国 ob ms asgt lastval Current: 6,91 k Average: 7,83 k 
转 ob ms asgt baseval Current: T6080 k Average: 


US 


TD 对 i 

- - - » 

Ba WB 0 A 0 
From 2812-11-09 QO@:57:00 to 2012-11-11 @0:52:36 


国 ob_ms_asst currval Current: 22.83 k Average: 15,55 k 
加 ob_ms_asst lastwval Current: 5,84 k Average: 14,21 k 
国 ob_ms_asst baseval Current， 11, 15 k Average 14 ,92 k 


图 11-5 OceanBase 某 线 上 应 用 读 取 延 时 


11.3 应 用 


OceanBase 上 线 两 年 左右 的 时 间 已 经 接 入 了 30 多 个 业务 ， 线 上 服务 器 数 
量 超过 300 台 。 虽 然 OceanBase 同 时 文 持 OLTP 以 及 OLAP 应 用 ,但 是 

OceanBase 具 有 一 定 的 适用 场景 。 如 果 应 用 总 数据 量 小 于 200TB， 每 天 
更 新 的 数据 量 小 于 1TB， 且 读 写 压 力 较 大 ， 单 台 关 系数 据 库 无 法 支撑 ， 


那么 ， 适 合 采 用 OceanBase。 对 于 这 种 应 用 ，OceanBase 具 有 如 下 优 
执 . 


se 无须 分 库 分 表 。OceanBase 系 统 内 部 目 动 按照 数据 范围 划分 子 表 ， 文 
持 子 表 人 合并、 分裂、 复制、 迁移 ， 无 须 应 用 考虑 分 库 分 表 以 及 扩容 问 


题 。 


e 另 于 使 用 。OceanBase 的 使 用 方式 和 关系 数据 库 基 本 一 致 ， 且 保证 强 
一 致 性 ， 从 而 简化 应 用 。 


e 更 低 的 成 本 。OceanBase 采 用 C++ 语言 实现 ， 并 针对 多 核 、SSD、 大 内 
存 等 现代 服务 器 硬件 特点 做 了 专门 的 优化 ， 能 够 最 大 程度 地 发 挥 单 台 
服务 器 的 性 能 。 


如 采 应 用 需要 使 用 OceanBase 专 有 的 功能 ， 例 如 10.4 和 10.5 区 提 到 的 并 
发 得 询 、 大 表 左 连接 、 数 据 过 期 ， 那 么 ，OceanBase 的 优势 会 更 加 明 


当然 ，OceanBase 并 不 是 万 能 的 。 例 如 ，OceanBase 不 适合 存储 图 片 、 
视频 等 非 结构 化 数据 ， 也 不 适合 存储 业务 原始 日 志 。 这 些 信息 更 适合 
存储 在 专门 的 分 布 式 文件 系统 ， 比 如 Taobao File System、HDFS 中 。 


本 节选 取 收 藏 来、 天 猫 评价 、 直 通车 报表 这 几 个 典型 业务 说 明 
OceanBase 的 使 用 情况 。 


11.3.1 收藏 夹 


图 11-6 展 示 了 淘宝 某 用 户 的 收藏 来。 


宝贝 收藏 店铺 收藏 购买 过 的 店铺 热门 收藏 


我 后 标 葵 。 少 主 分 类 
友 士 向 让/ 男士 向 衣 /.… (3 


加 全 选 、 删 除 ” 才 我 指 。 时 示 : | 党 


收藏 9 塌 会 


加 i 开 几 中 心 官方 推荐 ] 草 是 欧 加 高档 秋冬 保 嚼 双 呈 加 厚 拉 育 冰 。 回 神 叶 H580 床 下 去 用 首 / 铀 化 忒 加 种 杀 蓉 锅 趟 锈 钢 夏 搬 二 层 三 
区 王 芝 恒 * 59.00 台 辐 2965.00 造 “ 55.00 区。 182.00 半 
已 车 出 : 3 忻 (2 评论) 已 车 出 : 217 则 《83 评 这 30 天 告 出 ;0 件 己 千 出 : 069 件 (310 评 证 

\ 气 ; 415 四 ”人 气 ; 1269 四 人: 9 人 气 : “326 


图 11-6 淘宝 菏 用 户 收藏 夹 
收藏 夹 属于 典型 的 OLTP 业 务 ， 主 要 功能 如 下 : 


e 收 藏 列表 功能 “范围 查询 ) : 按照 某 种 过 滤 条 件 ， 例 如 标题 、 标 签 等 
查询 某 个 用 户 的 所 有 收藏 ;可 能 需要 按照 某 种 特定 条 件 排 序 ， 例 如 商 
品 价格 、 收 藏 时 间 等 ， 文 持 对 结果 的 分 页 ;支持 在 结果 集 上 执行 聚合 
操作 ， 例 如 Count 计 数 。 


e 修 改 操作 : 将 商品 或 者 店铺 添加 到 收藏 夹 ， 删 除 收藏 ， 对 收藏 条 目 打 


全 和 


10.5.1 节 中 提 到 的 大 表 左 连接 功能 是 收藏 夹 的 难点 ，OceanBase 高 效 地 
实现 了 这 个 需求 。 截 至 2012 年 11 月 11 日 ， 收 藏 夹 集群 规模 接近 60 台 服 
务 右 ， 单 表 数 据 量 超 过 100 亿 和 条， 整体 数据 量 超 过 200 亿 条 。2012 年 11 
月 11 日 当天 读 取 次 数 超过 15 亿 ， 且 大 部 分 查询 为 范围 查询 ， 读 取 总 条 
目 数 超过 900 亿 条 ， 读 取 平 均 延 时 在 10~ 一 20 宣 秒 。 


11.3.2 天 猫 评 价 


图 11-7 展 示 了 天 独 某 商品 在 线 评价 。 


累计 评价 (101640) 月 成 交 记录 (21195 件 ] 服务 质量 给 我 推荐 售后 服务 
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图 11-7 天 猫 某 商品 评价 
天 猫 评价 也 属于 典型 的 OLTP 应 用 ， 主 要 功能 如 下 : 


e 评 价 展示 (范围 查询 ) : 按照 某 种 过 滤 条 件 ， 例 如 标签 ， 查 询 某 个 商 
品 的 所 有 评价 ; 可 能 需要 按照 某 种 特定 条 件 排序 ， 例 如 时 间 、 信 用 ; 
文 持 对 结果 的 分 页 ;支持 在 结果 集 上 执行 聚合 操作 ， 例 如 Count 计 数 。 


。 修 改 操作 :新 增 一 条 评价 ， 修 改 评价 ， 例 如 将 好 评 修改 为 差 评 。 


天 猫 评 价 的 难点 在 于 部 分 商品 评价 数 很 多 ， 达 到 数 十 万 条 ， 极 少数 商 
品 的 评价 数 甚 至 超过 一 百 万 条 ， 采 用 传统 数据 库 方案 很 容易 出 现 超 时 
的 情况 。OceanBase 的 优势 主要 体现 在 两 个 方面 : 


e 相 比 传统 数据 库 ，OceanBase 的 数据 在 物理 上 连续 存放 ， 因 此 ， 顺 序 
扫 摘 性 能 更 好 ， 适 合 大 碍 询 使 用 场景 。 


e 如 果 一 个 商品 的 评价 数 过 多 ，OceanBase 系 统 内 部 会 自动 将 该 商品 的 
数据 拆 分 成 多 个 子 表 ， 从 而 发 挥 OceanBase 的 并 发 查询 优势 。 


天 猫 评 价 总 体 数 据 量 超过 7 亿 条 ， 大 部 分 查询 能 够 在 20 毫 秒 之 内 返回 ， 
大 查询 的 延 时 约 为 200ms， 满 足 了 应 用 的 需求 。 当 然 ， 大 查询 延 时 还 有 
较 大 的 优化 空间 。 


11.3.3 直通 车 报表 


直通 车 报表 是 典型 的 OLAP 报 表 需 求 如 图 11-8 所 示 ， 包 含 如 下 几 个 方 
面 : 


e 数 据 定期 导入 : 每 天 凌晨 将 Hadoop 分 析 结 果 导 入 OceanBase 。 


e 报 表 查 询 ， 按照 用 户 、 推 广 计划 、 至 贝 、 关 键 词 等 多 种 维度 分 组 ， 统 
计 展 现 量 、 财 务 花费 等 数据 ， 了 响应 前 端的 实时 查询 需求 。 


】 点 击 量 Lop50 关 键 词 详细 报表 (2013-02-24 至 2013-03-02》 
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图 11-8 直通 车 报表 查询 页 面 


每 天 导入 OceanBase 的 数据 中 ， 每 个 关键 词 会 有 一 条 数据 ， 包 含 了 这 
关键 词 当天 的 展现 量 、 点 击 量 、 财 务 人 花费 等 统计 数值 。 用 户 允 许 查 看 

三 天 、 最 近 一 周 、 最 近 一 个 月 或 者 其 他 任意 时 间 范 围 的 统计 数 
据 ， 统 计 值 包含 这 个 时 间 范 围 内 展现 量 总 和 、 财 务 人 花费 总 和 等 ， 还 包 
ee 
费 (Cost Per Click,CPC) 等 值 ， 按 照 用 户 、 推 广 计划 、 宝 贝 、 关 键 词 
等 维度 分 组 ， 并 且 可 以 按照 任意 列 对 这 些 分 组 的 统计 数据 进行 排序 ， 
排序 后 分 页 展示 。 


直通 车 报表 的 难点 在 于 多 维度 组 合 查 询 ， 每 次 查询 最 多 需要 分 析 上 和 干 
万 条 记 杂 ， 且 要 求 响应 时 间 在 秒 级 。 由 于 多 个 维度 可 以 任意 组 合 ， 传 
统 数 据 库 二 级 索引 的 方式 不 再 适用 。OceanBase 文 持 并 行 计 算 ， 目 动 将 
大 请 求 拆 分 为 多 个 小 请 求 同 时 发 给 多 台 ChunkServer 并 发 执行 ， 从 而 将 
延 时 降低 一 到 两 个 数量 级 。 另 外 ， 由 于 直通 车 报表 大 部 分 字段 为 整数 
类 型 ，OceanBase 内 部 会 目 动 将 整数 编码 以 后 压缩 存储 ， 从 而 节省 存储 
痪 源 。 


基于 容 灾 考虑 ， 直 通车 报表 部 署 了 主 备 两 个 集群 ， 每 个 集群 12 台 服务 
器 ， 整 体 数据 量 超过 1500 亿 条 “。 每 天 导入 数据 量 大 约 为 100GB， 导 入 
时 间 在 1 到 2 个 小 时 。 线 上 平均 查询 延 时 小 于 100 宫 秒 ， 涉 及 千 万 条 以 内 
记录 的 大 查询 延 时 在 3 秒 以 内 。 


11.4 最 佳 实践 


分 布 式 存储 系统 从 整体 架构 的 角度 看 大 同 小 异 ， 实 现 起 来 却 困难 重 
重 。 上 自主 研发 的 分 布 式 存储 系统 往往 需要 两 到 三 年 才能 逐步 成 熟 起 
来 ， 其 中 的 难点 在 于 如 何 把 系统 做 稳定 。 系 统 开 发 过 程 中 涉及 架构 设 
` 关键 算法 实现 、 质 量 控制 、 团 队 成 员 成 长 、 线 上 运 维 、 应 用 合作 
， 任 何 一 个 环节 出 现 问题 都 可 能 导致 整个 项 目 失败 。 


EE 


下 


本 首先 介绍 通用 分 布 式 存 储 系统 发 展 路 径 ， 接 着 分 享 个 人 在 人 员 
长 、 架 构 设 计 、 系 统 实现 、 线 上 运 维 的 一 些 经 验 ， 最 后 给 出 实践 过 程 


尘 


中 发 现 的 工程 现象 以 及 经 验 法 则 。 


11.4.1 系统 发 展 路 径 


通用 分 布 式 存 储 系统 不 是 设计 出 来 的 ， 而 是 随 着 应 用 需求 不 断 发 展 起 
来 的 。 它 来 源 于 具体 业务 ， 义 具有 一 定 的 通用 性 ， 能 够 解决 一 大 类 问 
题 。 通 用 分 布 式 存储 平台 的 优势 在 于 规模 效应 ， 等 到 平台 的 规模 超过 
某 个 平衡 点 时 ， 成 本 优势 将 会 品 现 。 


通用 分 布 式 存储 平台 主要 有 了 两 种 成 长 模式 : 


1) 公司 高 层 制定 战略 大 力 发 展 通用 平台 。 这 种 模式 前 期 发 展会 比较 顺 
利 ， 但 是 往往 会 因为 离 业务 太 远 而 在 中 期 又 露 大 量 平 台 本 身 的 问题 。 


2) 来 源 于 具体 业务 并 将 业务 需求 通用 化 。 这 种 模式 会 面临 更 大 的 技术 
挑战 ,但 是 团队 成 员 反 而 能 够 在 这 个 过 程 中 得 到 更 多 的 锻炼 。 


第 2 种 发 展 模式 相对 更 加 曲折 ， 大 致 需 要 经 历 如 下 几 个 阶段 。 


1) 起 步 : 解决 特定 问题 


在 起 步 阶段 ， 需 要 解决 业务 提出 的 特殊 需求 ， 这 些 特殊 需求 是 以 前 的 
系统 无 法 解决 或 者 解决 得 不 太 好 的 。 例 如 ，OceanBase 系 统 起 步 时 需要 
解决 淘宝 收藏 夹 业务 提出 的 两 张大 表 左 连接 问题 。 起 步 期 的 挑战 主要 
在 于 技术 挑战 ， 团 队 成 员 能 够 在 这 个 阶段 获得 较 大 的 技术 成 长 。 


为 了 证 明 平 台 的 通用 性 ， 需 要 接 入 大 量 的 业务 。 如 果 没 有 公司 战略 文 
持 ， 这 个 阶段 将 面临 “ 鸡 生 昌 还 是 重生 鸡 ” 的 问题 ， 没 有 业务 承 无 法 完 
普 平 台 ， 平 台 不 完善 束 无 法 吸引 更 多 业务 接 入 。 在 这 个 阶段 ， 优 先 级 
最 高 的 事情 是 接 入 合适 的 应 用 并 把 应 用 服务 好 ， 形 成 民 好 的 口碑 。 求 
生存 阶段 还 将 面临 一 个 来 目 团队 内 部 的 挑战 ， 团 队 成 员 缺 乏 起 步 期 的 
新 鲜 感 ， 部 分 成 员工 作 热情 会 有 所 降低 。 这 个 阶段 需要 明确 团队 的 愿 
景 ， 耐 住 寂寞 ， 重 视 每 个 细 方 。 


3) 平台 化 : 提升 易 用 性 、 可 运 维 性 


当 应 用 数量 积累 到 一 定 程 度 后 ， 就 需要 化 大 力气 提升 易 用 性 和 可 运 维 
性 了 。 吻 用 性 的 关键 在 于 采用 标准 的 使 用 接口 ， 兼 容 应 用 以 前 的 使 用 
方式 ， 从 而 降低 学 习 成 本 和 应 用 改造 成 本 ; 提升 可 运 维 性 要 求 将 系统 
内 部 更 多 状态 暴露 给 运 维 人 员 并 开发 方便 的 部 署 、 监 控 、 运 维 工 具 。 


4) 成 熟 期 : 持续 不 断 地 优化 


分 布 式 存储 系统 步 入 成 熟 期 后 ， 应 用 推广 将 会 比较 顺利 。 开 发 团队 在 
这 个 阶段 做 的 事情 主要 是 持续 不 断 地 优化 系统 ， 并 根据 应 用 的 需求 补 
充 一 些 功 能 文 持 。 随 着 平台 规模 不 断 增 长 以 及 优化 工作 不 断 深 入 ， 平 
台 的 规模 效应 将 显现 ， 平 台 取 得 成 功 。 


通用 存储 平台 发 展 过 程 中 困难 重重 ， 要 求 团队 成 员 有 强烈 的 信念 和 长 
远 的 理想 ， 能 够 耐 得 住 窜 寞 。 男 外 ， 系 统 发 展 过 程 中 需要 保持 对 技术 
细 世 的 关注 ， 每 个 实现 细 万 问题 都 可 能 导致 用 户 抱 她， 甚至 引起 线 上 
故障 。 


从 公司 的 角度 看 ， 是 否 发 展 通用 分 布 式 存储 平台 取决 于 公司 的 规模 。 

对 于 小 型 互联 网 公司 (员工 数 小 于 100 人 ) ， 那 么 ， 应 该 更 多 地 选择 广 
泛 使 用 的 存储 技术 ， 例 如 MySQL 开 源 关系 数据 库 ， 对 于 中 型 互联 网 公 
司 〈 员 工 数 在 100 到 1000 人 之 间 ) ， 那 么 ， 可 以 组 合 使 用 各 种 SQL 或 

NoSQL 存 储 技术 ， 改 进 开源 产品 或 者 基于 开源 产品 做 二 次 开发 ， 例 如 
基于 MySQL 数 据 库 做 二 次 开发 ， 实 现 7.1 节 中 的 MySQL Sharding 架 构 ; 
对 于 大 型 互联 网 公司 (员工 数 超过 1000 人 ) ， 那 么 ， 往 往 需要 自主 研 
发 核心 存储 技术 ， 包 括 分 布 式 架构 、 存 储 引 警 等 。 通 用 分 布 式 存储 系 
统 研 发 周期 很 长 ， 系 统 架 构 需 要 经 过 多 次 迭代 ， 团 队 成 员 也 需要 通过 
研发 过 程 来 获得 成 长 ， 因 此 ， 这 种 事情 要 么 不 做 ， 要 做 就 务必 坚持 到 
底 。 


11.4.2 人 员 成 长 


1. 师 兄 市 师 第 


分 布 式 存储 系统 新 人 培养 周期 较 长 ， 新 人 的 成 长 一 方面 需要 靠 目 己 的 
努力 ， 另 一 方面 更 需要 有 经 验 的 师兄 悉心 的 指导 。 


OceanBase 团 队 新 人 加 入 时 ， 会 给 每 人 分 配 一 个 具有 三 年 以 上 大 规模 分 
布 式 存储 实践 经 验 的 师兄 。 师 兄 的 主要 职员 包括 : 


1) 对 于 新 加 入 的 师弟 (无论 应 届 生 与 否 ) ， 提 供 各 种 技术 文档 ， 并 人 解 
惑 文档 中 的 问题 ; 


2) 与 技术 负责 人 协商 安排 师弟 的 工作 ; 
3) 与 师弟 沟通 代码 编写 (包括 功能 实现 、bug 修 复 等 ， 的 思路 ; 
4) 审核 师弟 的 代码 并 对 代码 质量 负责 ， 确 保 代 码 符 合 部 门 编码 规范 ; 


保持 代码 修改 与 文档 更 新 的 同步 并 审核 师 贡 文档 的 正确 性 及 质量 。 


Ul 
~ 


OceanBase 的 各 种 技术 文档 包括 : 


1) 技术 框架 文档 : 介绍 OceanBase 整 体 技术 架构 和 各 个 模块 的 详细 设 
计 ; 


2) 模块 接口 文档 ， 各 个 模块 之 间 的 接口 和 一 些 约定 ; 


3) 数据 结构 文档 : OceanBase 系 统 中 的 核心 数据 结构 ， 例 如 
ChunkServer 模 块 的 SSTable、UpdateServer 模 块 的 MemTable、 
RootServer 模 块 的 RootTable; 


4) 编码 规范 。 


可 以 看 出 ， 师 兄 主要 的 职责 就 是 帮助 师弟 把 关 设 计 和 编码 的 质量 ， 帮 
助 师弟 打 好 基础 。 同 时 ， 师 兄 需要 根据 师弟 的 情况 安排 具有 一 定 挑战 
性 但 又 在 师弟 能 力 范 围 之 内 的 工作 ， 并 解答 师弟 提出 的 各 种 问题 。 当 
然 ， 成 长 靠 自 己 ， 师 弟 需要 主动 利用 业余 时 间 学 习 分 布 式 存储 相关 理 


论 。 


2. 架 构 理 论 学 习 


基于 互联 网 的 开放 性 ， 我 们 能 够 很 容易 获取 分 布 式 存储 染 构 相关 资 

料 ， 例 如 Google File System、Bigtable、Spanner 论 文 、Hadoop 系 统 源 代 
码 等 。 然 而 ， 这 些 论文 或 者 系统 仅仅 给 出 一 种 整体 方案 ， 并 不 会 明确 
给 出 方案 的 实现 细 市 以 及 背后 经 历 的 权衡 。 这 就 要 求 我 们 在 染 构 学 习 
的 过 程 中 主动 挖掘 整体 架构 背后 的 设计 思想 和 关键 实现 细节 。 


阅读 GFS 论 文 时 ， 可 以 竹 试 思考 如 下 问题 : 
1) 为 什么 存储 三 个 副本 ? 而 不 是 两 个 或 者 四 个 ? 
2) Chunk 的 大 小 为 何 选 择 64MB? 这 个 选择 主要 基于 哪些 考虑 ? 


3) GFS 主 要 支持 追加 (append) 、 改 写 (overwrite) 操作 比较 少 。 为 
什么 这 样 设计 ? 如 何 基于 一 个 仅 文 持 追 加 操作 的 文件 系统 构建 分 布 式 
表格 系统 Bigtable? 


4) 为 什么 要 将 数据 流 和 控制 流 分 开 ? 如 果 不 分 开 ， 如 何 实现 追加 流 
程 ? 


5) GEFS 有 时 会 出 现 重 复 记录 或 者 补 零 记 录 (padding) ， 为 什么 ? 


6) 租约 (Lease) 是 什么 ? 在 GFS 起 什么 作用 ? 它 与 心跳 (heartbeat) 
有 何 区 别 ? 


7) GFS 追 加 操作 过 程 中 如 果 备 副本 (Secondary) 出 现 故 障 ， 如 何 处 
理 ? 如 果 主 副本 (Primary) 出 现 故 障 ， 如 何 处 理 ? 


8) GFS Master 需 要 存储 哪些 信息 ?” Master 数 据 结构 如 何 设计 ? 


9) 假设 服务 一 千 万 个 文件 ， 每 个 文件 1GB,Master 中 存储 的 元 数据 大 概 
占用 多 少 内 存 ? 


10) Master 如 何 实现 高 可 用 性 ? 
11) 负载 的 影响 因素 有 哪些 ? 如 何 计 算 一 台 机 器 的 负载 值 ? 


12) Master 新 建 chunk 时 如 何 选 择 ChunkServer? 如 果 新 机 器 上 线 ， 负 载 
值 特别 低 ， 如 何 避 人 免 其 他 ChunkServer 同 时 往 这 人 台 机 器 迁移 chunk? 


13) 如 果 某 台 ChunkServer 报 废 ，GFS 如 何 处 理 ? 


14) 如 果 ChunkServer 下 线 后 过 一 会 重新 上 线 ，GFS 如 何人 处 理 ? 


15) 如 何 实现 分 布 式 文件 系统 的 快照 操作 ? 

16) ChunkServer 数 据 结构 如 何 设计 ? 

17) 磁盘 可 能 出 现 * 位 翻转 ?错误 ，ChunkServer 如 何 应 对 ? 

18) ChunkServer 重 启 后 可 能 有 一 些 过 期 的 chunk,Master 如 何 能 够 发 现 ? 


阅读 Bigtable 论 文 时 ， 可 以 竹 试 思考 如 下 问题 : 


1) GFS 可 能 出 现 重复 记录 或 者 补 零 记录 (padding) ，Bigtable 如 何 处 
理 这 种 情况 使 得 对 外 提供 强 一 致 性 模型 ? 


2) 为 什么 Bigtable 设 计 成 根 表 (RootTable) 、 元 数据 表 
(MetaTable) 、 用 户 表 (UserTable) 三 级 结构 ， 而 不 是 两 级 或 者 四 级 


结构 ? 


3) 读 取 某 一 行 用 户 数据 ， 最 多 需要 几 次 请 求 ? 分 别 是 什么 ? 
4) 如 何 保证 同一 个 子 表 不 会 被 多 台 机 器 同时 服务 ? 

5) 子 表 在 内 存 中 的 数据 结构 如 何 设计 ? 

6) 如 何 设计 SSTable 的 存储 格式 ? 


7) minor、merging、major 这 三 种 compaction 有 什么 区 别 ? 


8) TabletServer 的 缓存 如 何 实现 ? 


9) 如 果 TabletServer 出 现 故 障 ， 需 要 将 服务 迁移 到 其 他 机 器 ， 这 个 过 程 
需要 排序 操作 日 志 。 如 何 实现 ? 


10) 如 何 使 得 子 表 迁 移 过 程 停 服 务 时 间 尽量 短 ? 


11) 子 表 分 和 裂 的 流程 是 怎样 的 ? 


12) 子 表 合并 的 流程 是 怎样 的 ? 


总 而 言 之 ， 学 习 论 文 或 者 开源 系统 时 ， 将 自己 想象 为 系统 设计 者 ， 对 
每 个 设计 要 点 提出 质疑 ， 直 到 找到 合理 的 解释 。 


当然 ， 更 加 有 效 的 学 习 方 式 是 加 入 类 似 OceanBase 这 样 的 开发 团队 ， 通 
过 参与 周围 同事 对 每 个 细节 问题 的 讨论 ， 并 应 用 到 实际 项 目 中 ， 能 够 
较 快 地 理解 分 布 式 存储 理论 。 


11.4.3 系统 设计 


1. 染 构 师 职 贡 


分 布 式 存储 系统 染 构 师 的 工作 不 仅 在 于 整体 架构 设计 ， 还 需要 考虑 清 
楚 天 键 实现 细 证 ， 做 到 即使 只 有 目 己 一 人 也 可 以 把 系统 做 出 来 ， 只 是 
需要 伦 费 更 多 的 时 间 而 已 。 


架构 师 的 主要 工作 包括 : 


1) 权衡 架构 ， 从 多 种 设计 方案 中 选择 一 种 与 当前 团队 能 力 最 为 匹配 的 
方案 。 架 构 设计 的 难点 在 于 权衡 ， 架 构 师 需要 能 够 在 理解 业务 和 业界 
其 他 方案 的 前 提 下 提出 适合 自己 公司 的 架构 。 这 样 的 架构 既 能 很 好 地 
满足 业务 需求 ， 复 杂 度 也 在 开发 团队 的 掌控 范围 之 内 。 另 外 ， 制 定 系 
统 技术 发 展 路 线 独 ， 提 前 做 好 规划 。 


2) 模块 划分 、 接 口 设计 、 代 码 规范 制定 。 系 统 如 何 分 层 ， 模 块 如 何 划 
分 以 及 每 个 模块 的 职责 ， 模 块 的 接口 、 客 户 端 接口， 这 些 问题 者 应 该 
在 设计 阶段 考虑 清楚 ， 而 不 是 遗留 到 编码 阶段 。 男 外 ， 确 人 整个 团队 
的 编码 风格 一 致 。 


3) 思考 清楚 关键 实现 细节 并 写 入 设计 文档 。 架 构 师 需要 在 设计 阶段 和 
团队 成 员 讨 论 清 条 关键 数据 结构 、 算 法 ， 并 将 这 些 内 容 文档 化 。 如 采 
琳 构 师 都 不 清 芭 关键 实现 细 下 ， 那 么 ， 团 队 成 员 往往 更 不 清楚 ， 最 终 
的 结果 束 是 实现 的 系统 市 有 不 确定 性 。 如 来 分 布 式 存 储 系统 存在 多 处 
缺陷 ， 那 么 ， 系 统 集成 测试 或 者 试 运 行 的 时 候 一 定 会 出 现 进程 Core 

Dump、 数据 不 正确 等 问题 。 这 些 问 题 在 分 布 式 以 及 多 线程 环境 下 非常 
难以 定位 。 如 有 果 引 发 这 些 错误 的 原因 比较 低级 ， 团 队 成 员 将 无 法 从 解 
决 错误 的 过 程 中 收获 成 就 感 ， 团 队 士气 下 降 ， 甚 至 形成 恶性 循环 。 


4) 提前 预知 团队 成 员 的 问题 并 给 予 指导 。 划 分 模块 以 及 安排 工作 时 需 
要 考虑 团队 成 员 的 能 力 ， 给 每 个 成 员 安排 适当 超出 其 当前 能 力 的 任 
务 ， 并 给 予 一 定 的 指导 ， 例 如 ， 帮 助 其 完善 设计 方案 ， 建 议 其 参考 业 
办 的 某 个 方案 等 。 


总 而 襄 之 ， 每 个 问题 总 会 有 多 种 技术 方案 ， 架 构 师 要 有 能 力 在 整体 上 
从 稳定 性 、 性 能 及 工程 复杂 度 明 确 一 种 设计 方案 ， 而 且 思 考 清楚 实现 
细节 ， 切 忌 模 核 两 可 。 分 布 式 存储 系统 的 挑战 不 在 于 存储 理论 ， 而 在 
于 如 何 做 出 稳定 运行 且 能 够 逐步 进化 的 系统 。 


2. 设 计 原 则 
大 规模 分 布 式 存储 系统 有 一 些 可 以 参考 的 设计 准则 : 


1) 容错 。 服 务 器 可 能 宕 机 ， 网 络 交 换 机 可 能 发 生 故 障 ， 服 务 器 时 钟 可 
能 出 错 ， 磁 盘存 储 介质 可 能 损坏 等 。 设 计 分 布 式 存储 系统 需要 考虑 这 
些 因素 ， 将 他 们 看 成 系统 运行 过 程 中 必然 发 生 的 “正常 情况 ”。 这 些 错 
翅 发 生 时 ， 要 求 系统 能 够 目 动 处理 ， 而 不 是 要 求人 工 干 预 。 


2) 自动化。 人 总 是 会 犯错 的 ， 加 上 互联 网 公司 往往 要 求 运 维 人 员 在 凌 
晨 执行 系统 升级 等 操作 ， 因 此 ， 运 维 人 员 操 作 失 误 的 概率 远 远 高 于 机 
器 故障 的 概率 。 很 多 设计 方案 是 无 法 做 到 目 动 化 的 ， 例 如 MySQL 数 据 
库 主 备 之 间 异 步 复 制 。 如 果 主 机 出 现 故 障 ， 那 么 有 两 种 选择 : 一 种 选 
择 是 强制 切换 到 备 机 ， 可 能 丢失 最 后 一 部 分 更 新 事务 ， 男 外 一 种 选择 


是 停 写 服 务 。 显 然 ， 这 两 种 选择 都 无 法 让 人 接受 ， 因 此 ， 只 能 在 主机 
出 现 故障 时 报警 ， 运 维 人 员 介 入 根据 实际 情况 采取 不 同 的 措施 。 另 一 
方面 ， 如 果 主 备 之 间 实 现 强 同步 ， 那 么 ， 当 主机 出 现 故 障 时 ， 只 需要 
人 简单 地 将 服务 切换 到 备 机 即 可 ， 很 容易 实现 日 动 化 。 当 集群 规模 较 小 
时 ， 有 是 否 目 动 化 没有 太 大 的 分 别 ;， 然 而 ， 随 着 集群 规模 越 来 越 大 ， 目 
动 化 的 优势 也 会 变 得 越 来 越 明 显 。 


3) 保持 兼容 。 分 布 式 存储 面临 的 需求 比较 多 样 ， 系 统 最 初 设计 ， 尤 其 
征用 户 接口 设计 时 需要 考虑 到 后 续 升 级 问题 。 如 果 没 有 兼容 性 问题 ， 
用 户 很 乐意 升级 到 最 新 版 本 。 这 样 ， 团 队 可 以 集中 精力 开发 最 新 版 
本 ， 而 不 是 将 精力 分 散 到 优化 老 版 本 性 能 或 者 修复 老 版 本 的 Bug 上 。 


11.4.4 系统 实现 


分 布 式 存储 系统 实现 的 关键 在 于 可 控 性 ， 包 括 代码 复 洒 度 、 服 务 器 
源 、 代 码 质 量 等 。 开 发 基础 系统 时 ， 一 个 优秀 工程 师 发 挥 的 作用 会 超 
过 10 个 平庸 的 工程 师 ， 常 见 的 团队 组 建 方 式 是 有 经 验 的 优秀 工程 师 加 
上 上 有 潜质 的 工程 师 ， 这 些 有 并 质 的 工程 师 往 往 是 优秀 的 应 届 生 ， 能 够 
在 开发 过 程 中 迅速 成 长 起 来 。 


| 


id 


1. 重 视 服 务 瑚 代码 资源 管理 


内 存 ， 线 程 池 ，socket 连 接 等 都 是 服务 器 资源 ， 设 计 的 时 候 惑 需要 确定 
资源 的 分 配 和 使 用 。 比 如 ， 对 于 内 存 使 用 ， 设 计 的 时 候 需 要 计算 好 服 


务 器 的 服务 能 力 ， 常 驻 内 存 及 临时 内 存 的 大 小 ， 系 统 能 够 目 动 发 现 内 
存 使 用 异常 。 一 般 来 说 ， 可 以 设计 一 个 全 局 的 内 存 池 ， 管 理 内 存 分 配 
和 释放 ， 并 监控 每 个 模块 的 内 存 使 用 情况 。 线 程 池 一 般 在 服务 器 程序 
局 动 时 静态 创建 ， 运 行 过 程 中 不 允许 动态 创建 线程 。 


2. 做 好 代码 审核 


代码 中 的 一 些 bug， 比 如 多 线程 bug， 异 常情 况 处 理 bug， 后 期 发 现 并 修 
复 的 成 本 很 高 。 我 们 经 历 过 系统 的 数据 规模 达到 10TB 才 会 出 现 bug 的 情 
况 ， 这 样 的 bug 和 需要 系统 持续 运行 接近 48 小 时 ， 并 且 我 们 分 析 了 大 量 的 
调试 日 志 才 发 现 了 问题 所 在 。 前 期 的 代码 审核 很 重要 ， 我 们 没有 必要 
担心 代码 审核 带 来 的 时 间 浪 费 ， 因 为 编码 时 间 在 整个 项 目 周 期 中 只 占 


代码 审核 的 难点 在 于 执行 ， 花 时 间 理 解 其 他 人 的 代码 看 起 来 没什么 “ 技 
术 舍 量 ”。OceanBase 团 队 采 取 的 措施 是 “师兄 贡 任 制 *。 每 个 进入 团队 的 
同学 会 安排 一 个 师兄 ， 师 兄 最 主要 的 工作 束 是 审核 师弟 的 代码 和 设计 
方 。 夯 外 ， 每 个 师兄 只 市 一 个 师弟 ， 要 求 把 工作 做 细 ， 如 免 形式 主 


3. 重 视 测 试 


分 布 式 存储 系统 开发 有 一 个 经 验 ， 如 果 一 个 系统 或 者 一 个 模块 设计 时 
没有 想 好 怎么 测试 ， 说 明 设计 方案 还 没有 想 清楚 。 比 如 开发 一 个 基于 


Paxos 协 议 的 分 布 式 锁 服务 ， 只 有 想 好 了 怎么 测试 ， 才 可 以 开始 开发 ， 
否则 所 做 的 工作 痢 将 是 无 用 功 。 系 统 服 务 的 数据 规模 越 大 ， 开 发 人 员 
调试 和 测试 人 员 测 试 的 时 间或 越 长 。 项 目 进展 到 后 期 需要 依靠 测试 人 
员 推 动 ， 测 试 人 员 的 聚 质 直 接 决 定 项 目 成 败 。 


另外 ， 系 统 质量 保证 不 只 是 测试 人 员 的 事情 ， 开 发 人 员 也 需要 通过 代 
码 审 核 、 单 元 测试 、 小 规模 代码 集成 测试 等 方式 保证 系统 质量 。 


11.4.5 使 用 与 运 维 


稳定 性 和 性 能 并 不 是 分 布 式 存储 系统 的 全 部 ， 一 个 好 的 系统 还 必须 具 
备 较 好 的 可 用 性 和 可 和 运 维 性 。 


1. 吃 自己 的 狗 粮 


开发 人 员 和 运 维和 人 员 往 往 属于 不 同 的 团队 ， 这 束 会 使 得 运 维和 人员 的 需 
求 总 是 被 开发 人 员 排 成 较 低 的 优先 级 甚至 忽略 。 一 种 比较 有 效 的 方式 
征 让 开发 人 员 轮 流 运 维 目 己 开 发 的 系统 ， 定 期 总 结 运 维 过 程 中 的 问 

题 ， 这 样 ， 运 维 相关 的 需求 能 够 更 快 地 得 到 解决 。 


2. 标 准 客户 端 


标准 客户 端的 好 人 处 在 于 客户 加 版 本 升级 不 至 于 太 过 频 蔡 。 通 用 系统 的 
上 游 应 用 往往 会 很 多 ， 推 动 应 用 升级 到 某 个 客户 端 版 本 是 非常 困难 
的 。 如 果 客 户 端 频繁 修改 ， 最 后 的 结果 往往 是 不 同 的 应 用 使 用 了 不 同 


的 客户 端 版 本 ， 以 至 于 服务 器 端 程序 需要 考虑 和 很 多 不 同 版 本 客户 端 
之 间 的 兼容 性 问题 。 例 如 ，OceanBase 的 客户 端 初 期 采用 专 有 API 接 
口 ， 两 年 之 内 线 上 客户 端的 版 本 数 达 到 数 十 个 之 多 。 后 来 我 们 将 客户 
端 和 服务 端 之 间 的 协议 升级 为 标准 MySQL 访 问 协 议 ， 客 尸 端 的 确 层 采 
用 标准 的 MySQL 驱 动 程序 ， 从 而 解决 了 客户 端 版 本 混乱 的 问题 。 


3. 线 上 版 本 管理 


存储 系统 发 展 过 程 中 会 产生 很 多 版 本 ， 有 的 版 本 之 间 变 化 较 大 ， 有 的 
版 本 之 间 变 化 较 小 。 如 采 线 上 维护 太 多 不 同 版 本 ， 那 么 ， 每 个 Bug 的 修 
复 代码 都 需要 应 用 到 多 个 版 本 ， 维 护 代 价 很 高 。 推 荐 的 方式 是 保证 版 
本 之 间 的 兼容 性 ， 定 期 将 线 上 的 低 版 本 升级 到 高 版 本 。 


4. 目 动 化 运 维 


在 系统 设计 时 ， 了 就 需要 考虑 到 目 动 化 运 维 ， 如 主 备 之 间 采 用 强 同步 从 
而 实现 故障 目 动 切 换 ， 又 如 ， 在 系统 内 部 实现 目 动 下 线 一 批 机 器 的 功 
能 ， 确 保 下 线 过 程 中 每 个 子 表 至 少 有 一 个 副本 在 提供 服务 。 男 外 ， 可 
以 开发 常用 的 运 维 工 具 ， 如 一 键 部 署 、 集 群 自动 升级 等 。 


11.4.6 工程 现象 


1. 错 误 必 然 出 现 


只 要 是 理论 上 有 问题 的 设计 或 实现 ， 实 际 运行 时 一 定 会 出 现 ， 不 管 概 
率 有 多 低 。 如 有 宁 没 有 出 现 问 题 ， 要 么 是 稳定 运行 时 间 不 够 长 ， 要 么 是 
压力 不 够 大 。 系 统 开发 过 程 中 要 有 洁 辛 ， 不 要 放 过 任何 一 个 可 能 的 错 
误 ， 或 者 心 存 傍 斑 心理。 


2. 错 误 必 然 复 现 


实践 表明 ， 分 布 式 系统 测试 中 发 现 的 错误 等 到 数据 规模 增 大 以 后 必然 
会 复 现 。 分 布 式 系统 中 出 现 的 分 布 式 或 者 多 线程 问题 可 能 很 难 排 碍 ， 
但 是 ， 没 关系 ， 根 据 现 象 推测 原因 并 补 调试 日 志 吧 ， 加 大 数据 规模 ， 


3. 两 倍数 据 规模 


分 布 式 存储 系统 压力 测试 过 程 中 ， 每 次 数据 量 或 者 压力 翻 倍 ， 都 会 骏 
种 一 些 新 的 问题 。 这 个 原则 当然 是 不 完全 准确 的 ， 不 过 可 以 用 来 指导 

我 们 的 测试 过 程 。 例 如 ，OceanBase 压 测 过 程 中 往往 会 提 一 个 目标 : TB 
级 别 数 据 量 的 稳定 性 。 假 设 线 上 真实 的 数据 量 为 ITB， 那 么 我 们 会 在 线 
上 测试 过 程 中 构造 2TB~5TB 的 数据 量 ， 并 且 将 测试 过 程 分 为 几 个 阶 

段 : 百 GB 级 别 压 力 测试 、TB 级 别 压力 测试 、5TB 数 据 量 测试 、 真 实数 
据 线 下 模拟 实验 等 。 


4. 怪 异 现象 的 育 后 总 有 一 个 愚蠢 的 初级 bug 


调 弃 过 程 中 有 时 候 会 发 现 一 些 特别 怪异 的 错误 ， 比 如 总 线 错 误 ，core 
dump 的 堆栈 面目 全 非 等 ， 不 用 太 担 心 ， 仔 细 审 核 代 码 ， 看 看 编译 连接 
的 库 是 否 版 本 错误 等 ， 特 别 怪异 的 现象 背后 一 般 是 很 初级 的 bug 。 


5. 线 上 问题 第 一 次 出 现 后 ， 第 二 次 将 很 快 重 现 


线 上 问题 第 一 次 出 现 往 往 是 应 用 引入 了 一 些 新 的 业务 逻辑 ， 这 些 业务 
逻辑 加 大 了 问题 触发 的 概率 。 开 发 人 员 经 常会 认为 线 上 的 某 个 问题 是 
小 概率 事件 ， 例 如 多 线程 问题 ， 加 上 修复 难度 大 ， 从 而 产生 懈 仿 心 
理 。 然 而 ， 正确 的 做 法 是 永远 把 线 上 问题 当成 第 一 优先 级 ， 尺 快 找 出 
错误 根源 并 修复 挥 。 


11.4.7 经 验 法 则 


1. 人 简单 性 原则 


简单 就 是 美 。 系 统 开发 过 程 中 ， 如 有 果 某 个 方案 很 复杂 ， 一 般 是 实践 者 
没有 想 清 楚 。OceanBase 开 发 过 程 中 ， 我 们 会 要 求 开 发 人 员 用 一 两 句 话 
描述 清楚 设计 方案 ， 如 果 不 能 做 到 ， 说 明 还 需要 梳理 其 中 的 关键 点 。 


2. 精 力 投入 原则 


开发 资源 总 是 有 限 的 ， 不 可 能 把 所 有 的 事情 都 做 得 很 完美 。 以 性 能 优 
化 为 例 ， 我 们 需要 把 更 多 的 时 间 人 花 在 优化 在 整体 时 间 中 占 比 例 较 大 或 
者 频繁 调用 的 琅 数 上 。 男 外 ， 在 系统 设计 时 ， 如 采 某 个 事件 出 现 概 率 


， 我 们 应 该 选择 复杂 但 更 加 完美 的 方案 ， 如 果 某 个 事件 出 现 概率 
低 ， 我 们 可 以 选择 不 完美 但 更 加 简单 的 方案 。 
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3. 先 稳定 再 优化 


系统 整体 性 能 的 关键 在 于 架构 ， 架 构 上 的 问题 需要 在 设计 阶段 解决 ， 
实现 细 广 的 问题 可 以 留 到 优化 阶段 。 开 发 人 员 营 犯 的 错误 束 古 在 系统 
还 没有 稳定 的 时 候 整 做 性 能 优化 ， 最 后 引入 额外 的 Bug 叶 人 致 系统 很 难 稳 
定 下 来 。 实 践 表 明 : 把 一 个 高 效 但 有 Bug 的 系统 做 稳定 的 难度 远 远 高 于 
把 一 个 稳定 但 效率 不 高 的 系统 做 高 效 。 当 然 ， 前 提 是 系统 的 整体 架构 
没有 重大 问题 。 


4. 想 清楚 ， 再 动手 


无 论 生 设计 还 旦 编码， 都 要 求 “ 想 清和 花 ， 再 动手 ”。 对 于 数据 结构 或 者 
算法 类 代码 ， 如 果 有 大 致 的 思路 但 是 无 法 确定 细 世 ， 可 以 尝试 写 出 伪 
代码 ， 通 过 伪 代 码 把 细 市 梳理 清楚 。 开 发 人 员 肖 犯 的 一 个 错误 束 古 先 
写 出 一 个 半成品 ， 然 后 再 修复 Bug。 然 而 ， 如 果 发 现 Bug 太 多 或 者 整体 
思路 出 现 问 题 ， 已 经 写 完 的 代码 将 成 为 “ 食 之 无 味 ， 弃 之 可 异 ” 的 鸡 
肋 ， 只 能 无 条 返工 。 


本 书 由 “ePUBw.COM” 整 理 ，ePUBw.COM 提供 
最 新 最 全 的 优质 电子 书 下 载 ! ! ! 


第 四 篇 专题 篇 
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第 12 章 云 存储 


Google、Amazon、Microsoft 等 国外 互联 网 巨头 为 我 们 搞 述 了 云 计算 的 
美妙 场景 : 当 云 计算 时 代 到 来 之 时 ， 不 必 在 你 的 计算 机 上 安装 各 种 各 
样 的 软件 ， 只 需要 访问 “ 云 *" 就 可 以 了 ， 互 联网 巨头 将 会 像 提 供水 电 煤 
一 样 提供 随时 可 用 的 计算 能 力 。 云 存储 是 云 计算 的 存储 部 分 ， 并 且 可 
以 作为 一 种 服务 提供 给 用 户 ， 任 何 经 过 授权 的 合法 用 户 都 可 以 通过 网 
络 访问 云 存储 ， 享 受 云 存 储 带 来 的 便利 。 云 存储 是 随 着 互联 网 和 云 计 
算 逐 步 发 展 起 来 的 ， 从 大 规模 系统 软件 架构 的 角度 看 ， 云 计算 后 端 架 
构 的 难点 集中 在 云 存 储 。 本 章 首先 对 云 存 储 做 一 个 初步 的 介绍 ， 接 着 
介绍 Amazon、Google 以 及 Microsoft 的 云 平台 整体 架构 。 


12.1 云 存储 的 概念 


云 存 储 是 在 云 计 算 概 念 上 和 衍生、 发展 出 来 的 一 个 概念 ， 它 除了 可 以 市 
省 整体 的 硬件 成 本 (包括 电力 成 本 ) 外 ， 还 具备 良好 的 可 扩展 性 、 对 
用 户 的 透明 性 、 按 需 分 配 的 灵活 性 和 负载 的 均衡 性 等 特点 。 近 年 来 ， 
里 然 已 经 有 很 多 公司 推出 了 云 存储 产品， 包括 Amazon S3、Microsoft 的 
Azure、Google AppEngine 中 使 用 的 Datastore， 以 及 Google Cloud 
Storage 等 ， 但 是 到 目前 为 止 ， 云 存储 并 没有 一 个 明确 的 定义 。 本 章 给 
出 一 种 定义 ， 供 读者 参考 。 


云 存储 是 通过 网 络 将 大 量 普 通 存 储 设 备 构成 的 存储 资源 池 中 的 存储 和 
数据 服务 以 统一 的 接口 按 需 提 供给 授权 用 户 。 


云 存储 属于 云 计 算 的 压 层 文 撑 ， 它 通过 多 种 云 存储 技术 的 融合 ， 将 大 
量 普 通 PC 服 务 器 构成 的 存储 集群 虚拟 化 为 易 扩 展 、 弹 性 、 透 明 、 具 有 
伸缩 性 的 存储 资源 池 ， 并 将 存储 资源 池 按 需 分 配给 授权 用 户 ， 授 权 用 
户 即 可 以 通过 网 络 对 存储 资源 池 进 行 任意 的 访问 和 管理 ， 并 按 使 用 付 
费 。 云 存储 将 存储 资源 集中 起 来 ， 并 通过 专门 的 软件 进行 目 动 管理 ， 
无 须 人 为 参与 。 用 户 可 以 动态 使 用 存储 资产， 无须 考 虚数 据 分 布 ， 扩 
展 性 ， 目 动容 错 等 复杂 的 大 规模 存储 系统 技术 细 证 ， 从 而 更 加 专注 于 
目 己 的 业务 ， 有 利于 提高 效率 、 降 低 成 本 和 技术 创新 。 云 存储 具有 如 
下 特点 : 


e 超 大 规模 。 云 存储 具有 相当 的 规模 ， 单 个 系统 存储 的 数据 可 以 到 达 千 
亿 级 ， 甚 至 万 亿 级 ， 如 2011 年 Q4 Amazon S3 存 储 的 对 象 个 数 已 经 达到 


7620 亿 个 。 


e 和 高 可 扩展 性 。 云 存储 的 规模 可 以 动态 伸缩 ， 满 足 数据 规模 增长 的 需 
要 。 可 扩展 性 包含 两 个 维度 ， 第 一 ， 系 统 本 身 可 以 很 容易 地 动态 增加 
服务 器 资源 以 应 对 数据 增长 ， 第 二 ， 系 统 运 维 可 扩展 ， 意 味 着 随 着 系 
统 规模 的 增加 ， 不 需要 增加 太 多 运 维 人 员 。 


e 和 高 可 靠 性 和 可 用 性 。 通 过 多 副本 复制 以 及 市 点 故障 目 动 容错 等 技术 ， 
云 存 储 提 供 了 很 高 的 可 靠 性 和 可 用 性 。 


e 安 全 。 云 存储 内 部 通过 用 户 鉴 权 ,访问 权限 控制 ， 安 全 通信 (如 
HTTPS,TLS 协 议 ) 等 方式 保障 安全 性 。 


e 按 需 服务 。 云 存储 是 一 个 庞大 的 资源 池 ， 用 户 按 需 购买 ， 像 自来水 ， 
电 和 煤气 那样 计 费 。 


e 透 明 服务 。 云 存储 以 统一 的 接口 ， 比 如 RESTful 接 口 的 形式 提供 服 
务 ， 后 端 存储 广 点 的 变化 ， 比 如 增加 节点 ， 节 点 故障 对 用 户 是 透明 
的 。 


e 目 动容 错 。 云 存储 能 够 目 动 处 理 世 点 故障 ， 从 而 实现 运 维 可 扩展 ， 保 
证 高 可 靠 性 和 高 可 用 性 。 


e 低 成 本 。 低 成 本 是 云 存储 的 重要 目标 。 云 存储 的 目 动容 错 使 得 可 以 采 
普通 的 PC 服务 器 来 构建 ， 云 存储 的 通用 性 使 得 资源 利用 率 大 幅 提 


升 ; 云 存储 的 目 动 化 管理 使 得 运 维 成 本 大 幅 降低 ; 云 存储 所 在 的 数据 
中 心 可 以 建 在 电力 资源 丰富 的 地 区 ， 从 而 大 幅 降 低能 源 成 本 。 


综 上 所 述 ， 云 存储 是 一 种 弹性 、 低 成 本 、 高 利用 率 、 透 明 的 并 能 满足 
用 户 需求 的 服务 ， 它 采用 友好 的 Web 界 面 与 用 户 进 行 交互 ， 提 供 数据 存 
储 、 数 据 保 护 、 数 据 管 理 等 功能 ， 并 使 用 用 户 吴 份 认证 机 制 来 验证 用 
户 身 份 的 真实 性 与 唯一 性 。 


云 存储 相关 的 概念 还 包括 云 存储 系统 、 云 存储 技术 、 云 存储 服务 等 ， 
图 12-1 说 明 它 们 之 间 的 关系 。 


图 12-1 存储 设备 、 云 存储 技术 、 云 存储 系统 、 云 存储 服务 的 关系 图 


云 存储 系统 由 大 量 的 廉价 的 存储 设备 〈 一 般 为 普通 PC 服务 器 ) 组 成 ， 
融合 了 分 布 式 存储 、 多 租户 共享 、 数 据 安全 、 数 据 去 重 等 多 种 云 存储 
技术 ， 为 用 户 提供 灵活 的 、 方 便 的 、 按 需 分 配 的 云 存储 服务 。 可 以 看 
出 ， 云 存储 技术 的 核心 在 于 分 布 式 存储 。 


在 大 数据 时 代 ， 个 人 用 户 成 为 数据 的 主要 创造 者 ， 它 们 页 献 了 海量 的 
用 户 行 为 数据 、 关 系数 据 、 无 线 互 联网 中 的 地 理 位 置 数 据 、 交 易 数 
据 、 用 户 创造 内 容 (User Generated Content,UGC) 等 。 这 些 数 据 增长 
很 快 ， 传 统 的 存储 技术 在 成 本 、 可 扩展 性 等 方面 部 无 法 满足 海量 数据 
的 快速 增长 需要 。 云 存储 是 传统 存储 技术 在 大 数据 时 代目 然 演进 的 结 
果 ， 相 比 传统 存储 ， 云 存储 具有 如 下 优势 。 


(1) 可 扩展 性 


传统 存储 不 具备 目 动 扩 展 能 力 ， 数 据 量 增 加 时 ， 往 往 要 求 管 理 员 手工 
执行 大 量 的 管理 操作 ， 比 如 重新 划分 数据 ， 停 机 拷贝 数据 等 才 可 以 加 
入 新 的 存储 设备 。 


云 存储 具有 良好 的 扩展 性 ， 可 以 使 用 大 量 的 普通 存储 设备 ， 存 储 方式 
灵活 多 样 ， 可 以 根据 业务 需求 的 变化 、 用 户 的 增 减 和 资金 的 承受 能 
力 ， 随 时 调整 存储 方式 。 云 存储 只 需 对 虚拟 化 后 的 存储 资源 池 进 行 统 
一 的 管理 ， 即 可 实现 按 需 使 用 、 按 需 分 配 、 按 需 维护 。 


(2) 利用 率 


传统 存储 对 货源 的 利用 率 非 常 低 ， 对 存储 资源 的 分 配 通 间 是 静态 的 ， 
印 参 考 用 户 的 估计 值 对 存储 设备 划分 成 分 区 或 着， 以 分 区 或 卷 态 单位 
将 存储 资源 分 配给 用 户 。 由 于 用 户 估 计 值 的 偏差 或 者 用 户 需 求 动 态 的 


增 减 ， 这 样 的 分 配方 式 会 导致 一 部 分 存储 资源 可 能 长 期 处 于 闲置 状 
仿 ， 而 这 些 内 和 置 的 存储 资源 义 无 法 提供 给 其 他 用 户 。 


而 云 存储 对 资源 的 利用 率 非常 高 ， 因 为 云 存 储 采 用 动态 的 方法 分 配 存 
储 资源 。 另 外 ， 云 存储 对 资源 的 管理 也 十 分 的 弹性 ， 如 果 用 户 的 某 些 
资源 处 于 用 置 状 态 ， 云 存储 可 以 将 这 部 分 资源 进行 回收 ， 动 态 地 分 配 
需要 更 多 资源 的 用 户 。 


ASS 
I 


(3) 成 本 


传统 存储 的 投资 成 本 和 管理 成 本 部 十 分 昂贵 。 当 使 用 传统 存储 时 ， 有 
时 很 难 提前 预测 业务 的 增长 量 ， 所 以 会 提前 采购 设备 ， 很 容易 造成 设 
备 的 浪费 ， 存 储 设备 并 不 能 得 到 完全 使 用 ， 造 成 了 投资 浪费 。 男 外 ， 
传统 存储 的 管理 员 需 要 管理 多 种 类 型 的 存储 设备 ， 不 同 生产 厂商 生产 
的 存储 设备 在 管理 方式 及 访问 方式 又 不 尽 相同 ， 因 此 管理 员 需 要 对 各 
种 产品 都 加 以 了 解 ， 增 加 了 管理 的 难度 及 人 员 的 开销 。 


而 云 存 储 可 以 有 效 降低 投资 成 本 和 管理 成 本 。 云 存储 具有 很 好 的 可 伸 
缩 性 、 弹 性 和 扩展 性 ， 可 以 灵活 扩容 、 方 便 升 级 ， 设 备 管理 和 维护 也 
非常 容易 。 云 存储 可 以 根据 用 户 的 数量 和 存储 的 容量 ， 按 需 扩 容 ， 规 
避 了 一 次 性 投资 所 市 来 的 风险 ， 降 低 了 投资 成 本 ， 云 存储 通过 存储 虚 
拟 化 技术 ， 将 数量 众多 的 廉价 存储 设备 虚拟 化 ， 形 成 统一 存储 资源 


池 ， 管 理 员 可 以 对 存储 资源 池 进 行 统一 的 管理 ， 最 大 幅度 的 降低 管理 
成 本 。 

(4) 服务 能 力 

传统 存储 容易 出 现 由 意外 故障 而 导致 服务 中 止 的 现象 。 传 统 存储 将 业 
务 和 存储 相互 对 应 ， 根 据 特定 的 业务 划分 相应 的 存储 设备 。 由 于 存储 


设备 之 间 的 隔离 ， 如 果菜 台 设 备 出 现 意外 故障 ， 业 务 就 会 中 止 ， 必 须 
将 故障 修复 后 才能 恢复 业务 。 


而 云 存储 则 采用 业务 迁移 、 数 据 备份 和 元 余 等 多 种 技术 来 保证 服务 的 
正常 运行 ， 当 菜 个 存储 设备 发 生 故 障 时 ， 云 存储 会 根据 系统 目前 的 状 
态 ， 目 动 将 用 户 的 请 求 转移 到 未 发 生 故 障 的 存储 设备 上 。 发 生 故 障 的 
存储 设备 恢复 后 ， 用 户 的 请 求 也 会 重新 转移 到 原 存 储 设备 ， 可 以 有 效 
地 可 以 保证 服务 的 持续 性 。 


(5) 便携 性 


传统 存储 属于 本 地 存储 。 数 据 会 保存 在 本 地 的 存储 设备 中 ， 并 不 会 和 
外 界 进 行 互联 ， 导 致 数据 具有 较 差 的 便携 性 。 


而 云 存储 属于 托管 存储 。 云 存储 可 以 将 数据 传送 到 用 户 选 择 的 任何 退 
介 ， 用 户 可 以 通过 这 些 媒介 访问 及 管理 数据 。 


12.2 云 存储 的 产品 形态 


早 在 2006 年 3 月 ，Amazon 束 推出 了 针对 企业 的 S3 简 单 存储 服务 
(Amazon Simple Storage Service) ， 它 是 Amazon 云 计算 平台 (Amazon 
Web Service,AWS) 的 一 种 对 象 存储 服务 ， 用 于 存储 照片 、 图 片 、 视 
频 、 音 乐 等 个 人 文件 。S3 被 认为 是 目前 最 为 成 功 的 云 存储 系统 ， 它 定 
义 的 云 存储 应 用 编程 对 外 接口 (API) 被 Google Cloud Storage、 阿 里 云 
开放 存储 服务 (Open Storage Service,OSS) 、 盛 大 云 存 储 等 国内 外 云 存 
储 系统 所 效仿 ， 成 为 业界 对 象 云 存 储 系统 的 事实 标准 。Amazon S3 以 桶 
(bucket) 或 者 目录 为 单位 管理 对 象 ， 每 个 桶 包含 若干 个 对 象 
(Object) ， 每 个 对 象 可 以 是 照片 、 图 片 、 视 频 、 音 乐 等 个 人 文件 ， 文 
持 REST、SOAP 以 及 BitTorrent 下 载 协 议 。 


Amazon S3 的 应 用 编程 接口 如 下 : 


eList Bucket: 列 出 桶 中 所 有 的 对 象 。 每 次 操作 最 多 返回 1000 个 对 象 ， 
如 采 桶 中 元 素 超 过 1000 个 ， 可 以 将 前 一 次 获取 的 最 后 一 个 对 象 的 主键 
作为 本 次 获取 的 起 始点 ， 直 到 胃 历 完成 。 忆 外 ， 本 操作 还 文 持 表 级 得 
询 ， 即 只 列 出 桶 中 主键 前 级 为 特定 值 的 对 象 。 


ePut Bucket， 创建 一 个 桶 ， 创 建 桶 时 可 以 选择 桶 所 在 的 数据 中 心 。 


eDelete Bucket， 删 除 一 个 桶 ， 桶 删除 之 前 必须 确保 其 中 所 有 的 对 象 已 
经 提前 被 删除 。 


eHead Bucket: 判断 桶 是 否 存在 且 具 有 访问 权限 。 


ePut Object: 创建 一 个 对 象 并 加 入 到 桶 中 或 者 修改 一 个 已 有 对 象 。 如 果 
对 象 多 版 本 策略 生效 ，S3 会 目 动 为 每 个 新 建 对 象 生成 唯一 的 版 本 号 ， 
同一 个 对 象 可 能 存储 多 个 版 本 。 


eGet Object: 读 取 对 象 的 数据 及 元 数据 ， 元 数据 包括 对 象 长 度 ，MD5 
哈 布 值 ， 创 建 时 间 等 。 


eDelete Object (s) : 删除 一 个 或 者 多 个 对 象 。 
eHead Object: 获取 对 象 的 元 数据 。 


S3 文 持 儿 GB 甚 至 上 TB 的 对 象 ， 如 果 对 象 过 大 ， 可 以 使 用 多 次 上 传 接 
加 ; 


eInitial Multipart Upload: 初始 化 多 次 上 传 ， 获 取 多 次 上 传 的 编号 


(upload ID) 。 


eUpload Part: 上 传 部 分 数据 ， 每 次 请 求 都 要 市 上 上 传 编号 以 及 本 次 上 
传 序号 (part number) 。 如 果 前 后 两 次 上 传 的 序号 相同 ， 后 一 次 上 传 的 
内 容 将 直接 和 履 盖 前 一 次 上 传 的 内 容 。 


eComplete Multipart Upload: 完成 多 次 上 传 ，S3 会 将 之 前 上 传 的 部 分 数 
据 连 接 为 一 个 大 对 象 。 


eAbort Multipart Upload: 中 止 多 次 上 传 请 求 。 


用 户 可 以 将 本 地 的 文件 通过 Put 接 口上 传 到 云端 ， 如 果 文 件 太 大 ， 可 以 
分 多 次 上 传 ， 用户 也 可 以 通过 List 方 法 读 取 云端 某 个 桶 中 包含 的 所 有 文 
件 或 者 通过 Get 方 法 读 取 某 个 文件 。 男 外 ， 如 果 文 件 太 大 ， 可 以 指定 读 
取 的 数据 范围 ， 从 而 分 多 次 读 取 大 文件 。 


作为 AWS 的 存储 部 分 ，Amazon S3 云 存储 服务 针对 企业 和 程序 员 ， 需 要 
自行 开发 使 用 界面 ， 除 此 之 外 ， 云 存储 还 可 以 以 单独 的 产品 形态 提供 
给 个 人 用 户 ， 比 如 Amazon“ 云 盘 ”(Amazon Cloud Drive) ， 苹 果 
iCloud,Google Drive,Windows LiveSkyDrive,Dropbox， 人 金山 快 盘 等 ， 这 
类 产品 称 为 个 人 云 存储 产品 。 简 单 地 说 ， 个 人 云 存 储 产 品 主要 定位 是 
用 来 存储 个 人 文件 的 ， 而 且 从 电脑 到 手机 ， 从 苹果 到 安 卓 ， 个 人 云 存 
储 可 以 跨 平 台 ， 走 到 哪里 ， 都 能 访问 到 你 的 个 人 文件 ， 就 像 使 用 U 副 这 
么 简单 ， 但 又 无 须 随时 携带 ， 更 不 用 担心 这 个 U 盘 会 丢失 。 相 比 云 存储 
平台 ， 个 人 云 存储 不 需要 专门 的 计算 实例 来 托管 应 用 程序 ， 个 人 用 户 
可 以 通过 各 种 终端 设备 ， 如 PC 机 ， 平 板 电脑 ， 智 能 手机 直接 访问 云 数 
据 中 心 的 存储 服务 ， 将 终端 设备 中 的 个 人 数据 实时 同步 到 云 存储 中 。 
通过 个 人 云 存 储 服务 ， 可 以 实现 多 个 终端 设备 之 间 数 据 同步 ， 数 据 分 


享 ， 备 份 等 功能 。 


除了 个 人 云 存储 产品 ， 云 存储 也 经 常用 于 企业 的 数据 集中 备份 ， 存 
档 。 中 小 企业 往往 没有 目 建 云 存储 的 能 力 ， 内 部 数据 管理 也 比较 混 


业 云 存储 ， 可 以 省 去 自 建 和 管理 的 麻烦 ， 并 提供 一 定 的 灾 


S 


最 后 ， 大 型 互联 网 服务 的 后 端 也 构建 在 互联 网 内 容 提 供 丙 的 私有 云 存 
储 系 统 之 上 ，Google,Amazon,Facebook,Taobao 等 互联 网 内 容 提供 商都 
维护 了 各 目的 私有 云 存储 系统 。 云 存储 产品 形态 如 图 12-2 所 示 。 


个 人 云 存 储 ( Amazon Cloud 企业 云 存 储 (数据 备 下 联网 产品 海量 存储 ( Google 
Drive, Google Drive 等 ) 份 ， 数 据 归 档 等 ) Does, 社交 网 络 ， 微 博 等 ) 


云 存 储 平 台 ( S3，Google Storage 等 ) 


云 存 储 系 统 ( Bigtable, Dynamo,Azure Storage 等 ) 


图 12-2 云 存储 产品 形态 


12.3 云 存 储 技术 


云 存储 包含 两 个 部 分 : 云端 + 终端 。 云 端 指 统一 的 云 存储 服务 端 ， 终 端 
指 多 样 化 的 PC 机 、 手 机 、 移 动 多 媒体 设备 等 终端 设备 。 云 存储 的 发 展 
需要 云端 和 终端 里 面 的 多 种 技术 的 文 持 。 


(1) 摩尔 定律 


摩尔 定律 一 直 推 动 着 整个 硬件 产业 的 发 展 ， 忌 片 、 内 存 和 磁盘 等 硬件 
设备 在 性 能 和 容量 方面 也 得 到 了 极 大 的 提升 。 最 明显 的 例子 莫 过 于 
CPU， 最 新 的 x86 心 片 在 性 能 上 已 经 是 30 年 前 8086 的 1000 倍 ， 而 现在 手 
机 等 低能 耗 设备 的 ARM 忌 厂 在 性 能 上 比 过 去 的 大 型 主机 的 蕊 厂 都 强大 
很 多 ， 同 时 这 些 硬件 的 价格 也 比 过 去 更 便宜 。 此 外 ， 诸 如 SSD、 万 兆 网 
络 和 GPU 等 新 兴 技 术 的 出 现 也 极 大 地 推动 着 IT 产业 的 发 展 。 


(2) 宽带 网 络 


si 


公有 云 存 储 是 一 个 多 区 域 分 布 ， 肖 布 全 国 其 至 人 吉 布 全 球 的 庞大 的 公用 
系统 ， 使 用 者 需要 通过 ADSL 等 宽带 接 入 互联 网 。 由 于 ADSL 宽 带 的 发 
展 和 光纤 入 户 的 不 断 普 及 ， 现 在 的 网 络 带宽 已 经 从 过 去 33.6kbps 的 
MODEM 拨 号 网 络 增长 到 平均 1Mbps 甚 至 10Mbps， 再 加 上 无 线 网 络 和 
移动 通信 的 不 断 发 展 ， 个 人 用 户 在 任何 时 间 、 任 何 地 点 都 能 利用 互联 
蚤 。 只 有 实现 随时 随地 快速 访问 互联 网 ， 才 能 真正 享受 云 存储 服务 ， 


否则 只 能 是 空谈 。 


Web 技 术 的 核心 是 分 享 。 只 有 通过 Web 技 术 ， 云 存储 的 使 用 者 才 可 能 通 
过 PC、 手 机 、 移 动 多 媒体 等 设备 ， 实 现 数据 、 文 档 、 图 片 、 音 频 和 视 
频 等 内 容 的 集中 存储 和 资料 共享 。 另 外 ， 随 着 类 似 AJAX、jQuery、 
Flash、Silverlight 和 HTML5 等 Web 技 术 的 不 断 发 展 ，Chrome 和 Safari 等 


功能 强大 的 浏览 器 的 不 断 涌现 ，Web 已 经 不 再 是 简单 的 页 面 ， 它 的 用 户 
体验 已 经 越 来 越 接近 桌面 应 用 。 这 样 ， 用 户 只 需要 通过 互联 网 连接 到 
云端 ， 就 可 以 享受 功能 强大 的 Web 应 用 提供 的 服务 。 


(4) 移动 设备 


随 着 苹果 的 i0S 和 Google 的 Android 这 类 智能 手机 系统 的 不 断 发 展 和 普 
及 ， 诸 如 手机 这 样 的 移动 设备 已 经 不 再 是 一 个 移动 电话 而 已 ， 更 是 一 
个 完善 的 信息 终端 。 通 过 它们 ， 可 以 轻松 访问 互联 网 上 的 信息 和 应 

用 。 由 于 移动 设备 整体 功能 也 越 来 越 接 近 台 式 机 ， 通 过 这 些 移动 设 

备 ， 能 够 随时 随地 访问 云 存 储 服 务 。 另 外 ， 移 动 设备 价格 较 低 ， 而 且 
降价 较 快 ， 用 户 可 能 同时 拥有 多 个 移动 设备 且 需 要 经 常 更 换 ， 云 存储 
很 好 地 解决 不 同 移动 设备 之 间 的 数据 共享 问题 。 


(5) 分 布 式 存储 、CDN、P2P 技 术 


云 存储 系统 由 多 个 存储 设备 构成 ， 不 同 存储 设备 之 间 需 要 通过 分 布 式 
存储 ，CDN、P2P 等 分 布 式 技术 ， 实 现 多 个 存储 设备 之 间 的 协同 工作 ， 
使 多 个 存储 设备 可 以 对 外 提供 同一 种 服务 ， 并 提供 更 好 的 数据 访问 性 
能 。 如 果 没 有 这 些 技术 ， 存 储 系 统 只 能 是 一 个 一 个 独立 的 系统 ， 不 能 
形成 云 状 结构 ， 也 就 没有 云 存 储 。 男 外 ,CDN (Content Delivery 
Network) 以 及 P2P 等 技术 保证 云 中 的 图 片 ， 视 频 等 文件 能 够 被 快速 访 
问 ， 并 且 廊 约 云 存 储 服务 提供 商 的 市 宽 成 本 。 


(6) 数据 加 密 、 云 安全 


数据 加 密 及 其 他 云 安 全 技术 保证 云 存 储 中 的 数据 不 会 被 未 授权 的 用 户 
所 访问 ， 同 时 ， 通 过 各 种 数据 备份 和 容 灾 技术 保证 云 存储 中 的 数据 不 
会 丢失 。 如 果 云 存储 中 的 数据 安全 得 不 到 保证 ， 没 有 人 会 选择 云 存 
储 。 


12.4 云 存储 的 核心 优势 


作为 云 计 算 的 存储 部 分 ， 云 存储 的 核心 优势 与 云 计 算 相 同 。 主 要 包括 
两 个 方面 : 最 大 程度 地 节省 成 本 以 及 加 快 创新 速度 。 


全 球 企业 IT 开销 ， 分 为 三 个 部 分 : 硬件 开销 、 能 耗 以 及 管理 成 本 。 其 
中 硬件 开销 包括 存储 、 计 算 服 务 套 以 及 网 络 市 宽 成 本 。 由 于 摩尔 定律 
的 作用 ， 硬 件 成 本 越 来 越 低 ， 而 能 耗 以 及 管理 成 本 所 占 比例 相应 地 变 
得 越 来 越 高 了 。 


根据 James Hamilton 的 数据 ， 一 个 拥有 5 万 个 服务 如 的 特大 型 数据 中 心 
与 拥有 1000 个 服务 器 的 中 型 数据 中 心 相 比 ， 特 大 型 数据 中 心 的 网 络 和 
存储 成 本 只 相当 于 中 型 数据 中 心 的 5 或 者 WW7， 而 每 个 管理 员 能 够 管理 
的 服务 紫 数 量 则 扩大 到 7 倍 之 多 。 因 而 ， 对 于 规模 达到 几 十 万 至 上 百 万 
计算 机 的 云 存储 平台 而 言 ， 其 网 络 、 存 储 和 管理 成 本 较 之 中 型 数据 中 
心 至 少 可 以 降低 5~7 倍 ， 如 表 12-1 所 示 。 


表 12-1 中 型 数据 中 心 与 特大 型 数据 中 心 的 成 本 比较 
类 到 比率 
存储 $2.20/GB/ 月 5.7 


管理 140 台 服 务 顺 /管理 员 1000 台 以 上 服务 器 / 管理 员 y | 


电力 和 制冷 成 本 也 会 有 明显 的 差别 。 例 如 ， 美 国 爱 达 荷 州 的 电力 资源 
丰富 ， 电 价 很 便宜 。 而 夏威夷 是 岛屿 ， 本 地 没有 电力 资源 ， 电 力 价格 
就 比较 贵 ， 二 者 相差 5 倍 ， 如 表 12-2 所 示 。 


表 12-2 美国 不 同 地 区 电力 价格 的 差异 
可 能 的 定价 原因 
水 力 发 电 ， 没 有 长 途 输送 
10.0 美 分 加 州 不 允许 煤 电 ， 电 力 需 在 电网 上 长 途 输送 


18.0 美 分 夏威夷 州 发 电 的 能 源 需要 海运 到 马上 


PUE (Power Usage Effectiveness， 能 源 使 用 效率 ) 用 来 衡量 数据 中 心 的 
能 源 效 率 ， 等 于 数据 中 心 所 有 设备 能 耗 (包括 IT 电 源 ， 冷 却 等 设 

备 ) /IT 设备 能 耗 。PUE 是 一 个 比率 ， 基 准 是 2， 越 接近 1 表明 能 效 水 平 
越 好 。 国 内 很 多 中 型 数据 中 心 的 PUE 值 大 于 2， 也 就 是 说 ， 一 半 以 上 的 
能 源 被 白白 浪费 掉 ， 而 特大 型 数据 中 心 ， 比 如 Facebook 某 太阳 能 供电 
数据 中 心 的 PUE 值 为 1.07， 几 乎 没有 额外 的 能 源 损耗 。 


云 存储 的 规模 效应 能 够 大 大 地 降低 IT 成 本 。 当 然 ， 我 们 国家 的 情况 有 
些 特殊 ， 比 如 电价 全 国 统一 ， 人 力 成 本 相对 较 低 ， 运 宫 丙 垄断 导致 网 
络 带 宽 成 本 偏 高 ， 目 建 数 据 中 心 也 有 各 种 政策 因素 ， 云 存储 市 来 的 成 
本 优势 虽 比 不 上 天国 但 仍然 是 巨大 的 。 


再 者 ， 云 存储 与 传统 存储 相 比 ， 资 源 的 利用 率 也 有 很 大 的 不 同 。 传 统 
存储 对 资源 的 利用 率 非常 低 ， 对 存储 资源 的 分 配 通 常 是 静态 的 ， 即 参 
考 用 户 的 估计 值 对 存储 设备 划分 成 分 区 或 卷 ， 以 分 区 或 卷 为 单位 将 存 
储 资源 分 配给 用 户 ， 相 应 的 网 络 和 CPU 资源 也 是 固定 的 。 然 而 ， 绝 大 
多 数 网 站 的 访问 流量 都 不 是 均衡 的 ， 例 如 ， 有 的 网 站 时 间 性 很 强 ， 日 
天 访问 的 人 少 ， 到 了 晚上 8 点 到 10 点 就 会 流量 暴涨 ， 典 型 的 例子 是 电子 
商务 网 站 ; 有 的 网 站 季节 性 很 强 ， 平 时 访问 人 不 多 ,但 是 到 国庆 节 ， 
春节 的 访问 量 就 很 大 ， 典 型 的 例子 是 铁道 部 火车 票 预 订 网 站 ; 有 的 网 
站 突 发 性 很 强 ， 典 型 的 例子 是 微 博 开放 平台 上 的 外 部 应 用 。 网 站 拥有 
者 为 了 应 对 这 些 突 发 流量 ， 需 要 按照 峰值 要 求 来 购买 服务 器 和 网 络 带 
宽 ， 造 成 资源 的 平均 利用 率 很 低 。 例 如 ， 淘 宝 网 在 2011 年 11 月 11 日 “ 双 
11” 促 销 活动 时 CDN 流 量 最 高 达到 820G， 是 平常 的 很 多 倍 。 云 存储 通过 
共享 的 方式 提供 弹性 的 服务 ， 它 根据 每 个 租用 者 的 需要 在 一 个 超大 的 
资源 池 中 动态 分 配 和 释放 资源 ， 而 不 需要 为 每 个 租用 者 预 留 峰 值 资 
源 。 由 于 云 存储 的 规模 极 大 ， 其 租用 者 数量 非常 多 ， 支 撑 的 应 用 种 类 
也 是 五 花 八 门 ， 通 过 这 种 错 峰 效应 ， 资 源 利用 率 可 以 达到 80% 左 右 ， 是 
传统 模式 的 5~7 倍 。 


综 上 所 述 ， 由 于 云 存储 更 低 的 硬件 成 本 和 网 络 成 本 ， 更 低 管 理 成 本 和 
电力 成 本 ， 以 及 更 高 的 资源 利用 率 ，Google,Amazon,Microsoft 等 互联 网 
巨头 能 够 通过 从 数据 中 心 开始 构建 整套 公有 云 存储 解决 方案 达到 市 省 
30 倍 以 上 成 本 的 目的 。 


在 我 国 ， 由 于 政府 政策 及 技术 实力 等 问题 ， 大 多 数 企 业 不 可 能 从 头 开 
人 构建 完整 的 云 存 储 方案 ， 然 而 ， 当 企业 发 展 到 一 定 的 规模 后 ， 仍 然 
可 以 通过 云 存储 扩 术 降低 成 本 ， 原 因 如 下 : 


e 由 于 云 存储 技术 的 容错 能 力 很 强 ， 使 得 我 们 可 以 使 用 低 端 硬件 苦 代 高 
端 硬件 ， 如 采用 普通 PC 服务 器 蔡 代 EMC 高 端 存储 以 及 IBM 小 型 机 。 男 
外 ， 可 以 通过 对 云 存储 系统 不 断 的 优化 来 降低 硬件 成 本 和 能 


e 在 保证 服务 质量 的 前 担 下 ， 通 过 云 存储 调度 技术 将 用 户 的 请 求 调度 到 
网 络 市 宽 费 用 较 低 的 数据 中 心 ， 从 而 降低 整体 网 络 融 宽 成 本 。 


e 云 存储 技术 的 管理 时 高 度 自动 化 的 ， 极 少 需要 人 工 干 预 ， 可 以 大 大 降 
低 管 理 成 本 。 


e 云 存储 技术 的 核心 理念 是 多 租户 共享 ， 多 个 业务 共享 相同 的 资源 池 ， 
每 个 业务 动态 分 配 和 释放 资源 ， 提 高 唤 源 利用 率 。 


云 存储 的 另外 一 个 核心 优势 加 是 加 快 创新 速度 。 云 存储 通过 提供 海量 
的 数据 存储 和 处 理 能 力 ， 使 得 用 户 不 必 关 心 故 层 基础 设施 的 可 扩展 
性 ， 突 发 流量 处 理 等 复 洒 的 系统 架构 问题 ， 将 有 限 的 精力 集中 在 最 核 
心 的 创新 业务 上 ， 使 得 创新 想法 很 快 得 到 实现 ， 大 大 地 提高 了 创新 速 
度 。 由 于 云 平 台 的 存在 ， 加 上 移动 互联 网 的 重大 机 遇 ， 大 量 创业 公司 
得 以 迅速 兴起 ， 许 多 美国 当前 热门 公司 ， 例 如 Pinterest、Dropbox、 


Instagram、Reddit、Zynga， 都 构架 在 Amazon 的 云 平台 (Amazon Web 


Service,AWS) 之 上 。 比 如 ，2012 年 4 月 以 10 亿 美元 (因为 大 部 分 是 股 
票 ， 实 际 价值 可 能 更 高 ) 被 Facebook 收 购 的 Instgram， 其 技术 方案 大 量 
采用 AWS (主机 选择 Amazon EC2， 图 片 数据 库 采 用 Amazon S3，CDN 
选用 Amazon CloudFront 等 ) 。 所 以 虽然 Instgram 只 有 13 名 员工 (工程 团 
队 仅 3 人 ) ， 却 构建 了 最 强大 的 移动 端 图 片 分 享 平台 ， 甚 至 让 Facebook 
感到 了 威胁 。 


今天 ， 一 个 普通 的 技术 人 员 可 以 短 时 间 内 借助 云 存 储 平 台 ， 拥 有 和 巨 
人 对 手 们 相同 的 计算 资源 ， 实 现 梦 想 ， 这 才 是 云 存储 平台 的 真正 价值 
所 在 。 我 们 需要 共同 为 之 努力 。 


12.5 云 平台 整体 架构 


云 存 储 是 云 计算 的 存储 部 分 ， 理 解 云 存储 架构 的 前 提 是 理解 云 平台 整 
体 架 构 。 云 计算 按照 服务 类 型 大 致 可 以 分 为 三 类 : 基础 设施 即 服务 
(IaaS) 、 平 台 即 服务 (PaaS) 以 及 软件 即 服务 (SaaS) ， 如 图 12-3 所 
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图 12-3 云 计算 服务 类 型 


IaaS 将 硬件 设备 等 基础 资源 以 虚拟 机 的 形式 封装 成 服务 供用 户 使 用 ， 如 
Amazon 云 计算 AWS (Amazon Web Service) 的 弹性 计算 云 EC2，PaaS 
进一步 抽象 硬件 资源 ， 提 供用 户 应 用 程序 的 运行 环境 ， 开 发 者 只 需要 
将 应 用 程序 提交 给 PaaS 平 台 ，PaaS 平 台 会 自动 完成 程序 部 署 ， 处 理 服 
务 嚣 故障， 扩容 等 问题 ， 典 型 的 如 (Google App Engine) GAE。 男 
外 ， 微 软 的 云 计算 平台 Windows Azure Platform 也 可 大 致 归 入 这 一 类 。 


SaaS 的 针对 性 更 强 ， 它 将 某 些 特定 应 用 软件 封 加 成 服务 ， 如 Salesforce 
公司 提供 的 在 线 客户 端 管理 CRM 服 务 ，Google 的 企业 应 用 套件 Google 


Apps 等 。 
本 市 首先 分 别 介绍 Amazon、Google 以 及 Microsoft 这 三 个 云 平台 的 整体 


构 ， 其 中 ，Amazon 提 供 IaaS 服 务 ，Google 和 Microsoft 提 供 PaaS 服 


架 
务 ， 接 着 介绍 一 般 情况 下 云 平 台 的 整体 架构 。 


12.5.1 Amazon 云 平台 


Amazon Web Services (AWS) 是 Amazon 构 建 的 一 个 云 计算 平台 的 总 
称 ， 它 提供 了 一 系列 云 服务 。 通 过 这 些 服 务 ， 用 户 能 否 访问 和 使 用 
Amazon 的 存储 和 计算 基础 设施 。 如 图 12-4 所 示 ，AWS 平 台 分 为 如 下 几 
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图 12-4 AWS 平 台 整 体 架 构 


e 计 算 类 :核心 产品 为 弹性 计算 云 EC2 (Elastic Computing) 。EC2 几 乎 
可 以 认为 是 迄今 为 止 云 计算 领域 最 为 成 功 的 产品 ， 通 俗 地 讲 ， 就 是 提 
供 虚 拟 机 ， 用 户 的 应 用 程序 部 署 在 EC2 实 例 中 。EC2 架 构 的 核心 是 弹性 
伸缩 ， 当 托管 的 应 用 程序 访问 量变 化 时 能 够 自动 增加 或 者 减少 EC2 实 
例 ， 并 通过 弹性 负载 均衡 拉 术 将 访问 请 求 分 发 到 新 增 的 EC2 实 例 上 。 在 
计 费 模式 上 ，EC2 按 照 使 用 量 计 费 ， 而 不 是 采用 传统 的 预付 费 方式 。 
EBS (Elastic Block Store) 是 一 个 分 布 式 块 设备 ， 可 以 像 本 地 的 磁盘 一 


样 直接 挂 载 在 EC2 实 例 上 ， 与 本 地 位 强 不 同 的 征 ， 保 存 到 EBS 的 数据 会 
由 EBS 的 管理 让 点 目 动 复制 到 多 个 存储 太 感 上 。EC2 实 例 的 本 地 存储 是 
不 可 靠 的 ， 如 果 EC2 实 例 出 现 故 障 ， 本 地 存储 上 保存 的 数据 将 会 丢失 ， 
而 保存 到 EBS 上 的 数据 不 会 丢失 。EBS 用 于 替代 EC2 实 例 的 本 地 存储 ， 
从 而 增强 EC2 可 靠 性 。 


e 存 储 类 : 存储 类 产品 较 多 ， 包 括 简单 对 象 存 储 S3， 表 格 存 储 系统 
SimpleDB、 DynamoDB、 分 布 式 关 系数 据 库 服务 (Relational Datastore 
Service,RDS) 以 及 简单 消息 存储 (Simple Queue Service,SQS) 。S3 用 
于 存储 图 片 、 照 片 、 视 频 等 大 对 象 ， 为 了 提高 访问 性 能 ，S3 中 的 对 象 
还 能 够 通过 CloudFront 缓 存 到 不 同 地 理 位置 的 内 容 分 发 网 络 (Content 
Delivery Network,CDN) 节点 。SimpleDB 和 DynamoDB 是 分 布 式 表格 系 
统 ， 支 持 对 一 张 表格 进行 读 写 操作 ，RDS 是 分 布 式 数据 库 ， 目 前 文 持 
MySQL 以 及 Oracle 两 种 数据 库 。SQS 主 要 用 于 支持 多 个 任务 之 间 的 消息 
传递 ， 解 除 任务 之 间 的 耦合 ， 相 当 于 传统 的 消息 中 间 件 (Message 
Queue) 。 为 了 提高 访问 性 能 ， 可 以 使 用 ElasticCache 缓 存 存 储 系 统 中 的 
热点 数据 。 


e 工 具 文 持 : AWS 文 持 多 种 开发 语言 ， 提 供 Java、Ruby、Python、 
PHP、Windows&.NET 以 及 Android 和 iOS 的 工具 集 。 工 具 集 中 包含 各 种 
语言 的 SDK、 程 序 自动 部 署 以 及 各 种 管理 工具 。 男 外 ，AWS 通 过 
CloudWatch 系 统 提 供 丰 富 的 监控 功能 。 


AWS 平 台 引 入 了 区 域 (Zone) 的 概念 区域 分 为 两 种 : 地 理 区 域 
(Region Zone) 和 可 用 区 域 (Availability Zone) ， 其 中 地 理 区 域 是 按 
照 实 际 的 地 理 位 置 划分 的 ， 而 可 用 区 域 一 般 是 按照 数据 中 心 划分 的 。 


假设 网 站 MyWebSite.com 托 管 在 AWS 平 台 的 某 个 可 用 区 域 中 。AWS 开 
发 者 将 Web 应 用 上 传 到 AWS 平 台 并 部 团 到 指定 的 EC2 实 例 上 。EC2 实 例 
一 般 分 成 多 个 自动 扩展 组 (Auto Scaling Group) ， 并 通过 弹性 负载 均 
衡 (Elastic Load Balancing) 技术 将 访问 请 求 自动 分 发 到 自动 扩展 组 内 
的 EC2 实 例 。 开 发 者 的 Web 应 用 可 以 使 用 AWS 平 台 上 的 存储 类 服务 ， 包 
括 S3、SimpleDB、DynamoDB、RDS 以 及 SQS 。 


网 站 上 往往 有 一 些 大 对 象 ， 比 如 图 片 、 视 频 ， 这 些 大 对 象 存储 在 S3 系 
统 中 ， 并 通过 内 容 分 发 技术 缓存 到 多 个 CloudFront 节 点 。 当 Internet 用 户 
浏览 MyWebSite.com 时 ， 可 能 会 请 求 S3 中 的 大 对 象 ， 这 样 的 请 求 将 通过 
DNS 按照 一 定 的 策略 定位 到 CloudFront 节 点 。CloudFront 首 先 在 本 地 缓 
存 节点 查找 对 象 ， 如 果 不 存在 ， 将 请 求 源 站 获取 S3 中 存储 的 对 象 数 
据 ， 这 一 步 操 作 称 为 回 源 。 


12.5.2 Google 云 平台 


Google 云 平台 (Google App Engine,GAE) 是 一 种 PaaS 服 务 ， 使 得 外 部 
开发 者 可 以 通过 Google 期 望 的 方式 使 用 它 的 基础 设施 服务 ， 目 前 文 持 
Python 和 Java 两 种 语言 。GAE 虽 然 在 产品 上 相 比 Amazon 云 平台 还 有 较 


大 的 差距 ， 但 在 技术 上 是 成 功 的 ， 尤 其 适用 于 企业 构建 自己 的 企业 私 
有 云 。GAE 的 整体 架构 如 图 12-5 所 示 。 
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图 12-5 Google App Engine 整 体 架 构 
GAE 云 平台 主要 包含 如 下 几 个 部 分 : 


e 恒 闪 服 务 左 。 前 问 的 功能 包括 负载 均衡 以 及 路 由 。 前 端 服务 郁 将 静态 
内 容 请 求 较 发 到 静态 文件 服务 化 ， 将 动态 内 容 请 求 转发 到 应 用 服务 
器 。 


e 应 用 服务 占 。 应 用 服务 句 婆 载 应 用 的 代码 并 人 处理 接收 到 的 动态 内 容 请 


e 应 用 管理 节点 (App Master) 。 调 度 应 用 服务 器 ， 将 应 用 服务 器 的 变 
化 通知 前 器， 从 而 前 端 可 以 将 访问 流量 切换 到 正确 的 应 用 服务 邵 。 


e 存 储 区 。 包 括 DataStore、MemCache 以 及 BlobStore 三 个 部 分 。 应 用 的 
持久 化 数据 主要 存储 在 DataStore 中 ，MemCache 用 于 缓存 ，BlobStore 是 
DataStore 的 一 种 补充 ， 用 于 存储 大 对 象 。 


e 服 务 区 。 除 了 必 备 的 应 用 服务 器 以 及 存储 区 之 外 ，GAE 还 包含 很 多 服 
务 ， 比 如 图 像 处 理 服务 (Images) 、 邮 件 服务 、 抓 取 服 务 (URL 
fetch) 、 任 务 队列 (Task Queue) 以 及 用 户 服务 (Users) 等 。 


另外 ， 作 为 Paas 服 务 ，GAE 还 提供 了 如 下 两 种 工具 : 


e 本 地 开发 环境 。GAE 中 大 量 采 用 私有 API， 因 此 专门 提供 了 本 地 开发 
和 调试 的 Sandbox 环 境 以 及 SDK 工 具 。 


e 管 理工 具 。GAE 捉 供 Web 管 理工 具 用 于 管理 应 用 并 监控 应 用 的 运行 状 
仿 ， 比 如 资源 消耗 、 应 用 日 志 等 。 


GAE 的 核心 组 件 为 应 用 服务 紫 以 及 存储 区 ， 其 中 ， 应 用 服务 占用 于 托 
管 GAE 平 台 用 户 的 应 用 程序 ， 存 储 区 提供 云 存储 服务 。 下 面 分 别 介绍 


这 两 个 部 分 。 


1. 应 用 服务 妖 


GAE 对 外 不 提供 虚拟 机 服务 ， 因 此 ， 对 于 不 同 的 开发 语言 ， 需 要 提供 
不 同 的 应 用 服务 器 实现 ， 目 前 文 持 Python 和 Java 两 种 语言 。 每 一 台 应 用 
服务 器 可 能 运行 多 个 GAE 平 台 用 户 的 应 用 ， 为 了 防止 应 用 程序 之 间 互 
相干 扰 ， 应 用 程序 将 在 受 限 制 的 “ 沙 使” 环境 中 运行 。“ 沙 使 ”环境 中 的 
GAE 应 用 程序 无 法 执行 以 下 操作 : 


e 写 入 到 本 地 文件 系统 。 应 用 程序 必须 使 用 数据 存储 区 来 存储 持久 化 数 
据 。 


e 打 开 套 接 字 或 者 直接 访问 其 他 主机 。 应 用 程序 必须 使 用 网 址 提取 服务 
(URL Fetch) 分 别 从 端口 80 和 443 上 的 其 他 主机 发 出 HTTP 和 HTTPS 请 
求 o 


e 生 成 子 进程 或 者 线程 。 应 用 程序 的 网 络 请 求 必须 在 单个 线程 中 处 理 ， 
并 且 必 须 在 几 秒 内 完成 ，GAE 会 自动 终止 响应 时 间 很 长 的 进程 以 免 应 
用 服务 右 过 载 。 


e 进 行 其 他 类 型 的 系统 调用 。 
2. 存 储 区 


Datastore 是 App Engine 存 储 区 的 核心 ， 撒 层 为 6.2 节 中 介绍 的 Google 
Metastore 系 统 。 与 天 系数 据 库 最 大 的 不 同 点 在 于 ，Datastore 文 持 目 动 增 


加 或 者 减少 存储 节点 ， 提 供 线 性 扩展 能 力 。App Engine 直 接 将 开源 的 
Memcache 用 作 缓 存 服务 ， 缓 存 Datastore 中 的 热点 数据 。Datastore 不 适 
合 存储 大 对 象 (Blob 对 象 ) ， 因 此 ，App Engine 设 计 了 专门 的 Blobstore 
用 于 支持 大 对 象 存 储 。 


除了 GAE 平 台 ，Google 还 单独 提供 了 两 种 云 存 储 服务 ，Google Cloud 
Storage 以 及 Google Cloud SQL。 其 中 ，Google Cloud Storage 与 Amazon 
S3 类 似 ， 用 于 存储 图 片 、 视 频 等 大 对 象 数据 ，Google Cloud SQL 与 
Amazon RDS 类 似 ， 用 于 提供 分 布 式 关系 数据 库 服务 。 


12.5.3 Microsoft 云 平台 


Windows Azure Platform 是 一 个 服务 平台 ， 用 户 利用 该 平台 ， 通 过 互联 
网 访问 微软 数据 中 心 的 计算 和 存储 服务 ， 它 不 但 支持 传统 的 微软 编程 
语言 和 开发 平台 ， 如 C# 和 .NET 平 台 ， 还 支持 PHP、Python、Java 等 多 种 
非 微软 编程 语言 和 架构 。WindowsAzure 平 台 包 含 如 下 几 个 部 分 。 


e 计 算 服 务 


Windows Azure 平 台中 每 个 计算 实例 是 一 个 运行 着 64bit 的 Windows 
Server 2008 的 虚拟 机 ， 分 为 三 种 类 型 : Web Role 实例 ，Worker Role 实 
例 和 VM Role 实例 。 其 中 ，Web Role 实例 提前 在 内 部 安装 了 IIS7， 用 于 
托管 Azure 平 台 用 户 的 Web 应 用 程序 ，Worker Role 实例 设计 用 来 运行 各 
种 各 样 的 基于 Windows 的 代码 ， 例 如 ，Worker Role 实 例 可 以 运行 一 个 


模拟 程序 、 进 行 视 频 处 理 等 ，Worker Role 与 Web Role 的 不 同 点 在 于 ， 
Worker Role 内 部 并 没有 安装 IS。 一 般 来 说 ， 用 户 只 会 用 到 Web Role 和 
Worker Role。 应 用 通过 Web Role 与 用 户 相互 作用 ， 然 后 利用 Worker 
Role 进行 任务 处 理 。 当 用 户 需要 将 本 地 的 Windows Server 应 用 移动 到 
Windows Azure 平 台 时 ，VM Role 将 会 起 作用 。VM Role 除了 人 允许 对 环 
境 拥有 更 多 的 控制 权 之 外 ， 它 和 Web Role 以 及 Worker Role 是 没有 区 别 
的 。 与 Amazon 云 平台 需要 用 户 提供 虚拟 机 的 虚拟 映像 文件 不 同 的 是 ， 
Azure 平 台 会 自动 虚拟 出 虚拟 机 ， 处 理 虚 拟 机 升级 ，Role 实 例 故障 ， 
Azure 平 台 用 户 只 需要 专注 于 如 何 创建 应 用 程序 即 可 。 


e 存 储 服务 


Windows Azure 存 储 服务 包括 Azure Blob,Table,Queue 以 及 SQL Azure 。 
其 中 ，Azure Blob 存 储 二 进 制 数据 ， 如 图 片 ， 照 片 ， 视 频 等 个 人 文件 。 
Azure Table 存 储 更 加 结构 化 的 数据 ， 支 持 单 张 表格 上 的 操作 ， 但 是 它 
不 同 于 关系 数据 库 系 统 中 的 二 维 关 系 表 ， 查 询 语言 也 不 是 大 家 熟悉 的 
关系 查询 语言 SQL。Azure Queue 的 作用 和 微软 消息 队列 (MSMQ) 相 
近 ， 用 来 支持 在 Windows Azure 应 用 程序 组 件 之 间 进 行 通信 。SQL 
Azure 则 是 将 微软 的 关系 数据 库 SQL Server 搬 到 云 环 境 中 ， 提 供 二 维 关 
系 表 和 SQL 查 询 语言 。 为 了 提高 访问 性 能 ，Windows Azure 还 提供 了 两 
种 缓存 机 制 : Azure Caching 以 及 Azure 内 容 分 发 网 络 (CDN) 。Azure 


Caching 在 数据 中 心 内 部 缓存 热点 数据 ，Azure CDN 在 离 用 户 较 近 的 “ 边 
缘 万 点 ”缓存 Azure Blob 中 的 Blob 对 象 。 


e 连 撑 服 务 


Windows Azure 连 接 服务 包括 Azure Service Bus 以 及 Azure Connect 。 
Azure Service Bus 包 含 三 个 部 分 : Service Bus Queue,Service Bus Topic 和 
Service Bus Relay。 其 中 ，Service Bus Queue 和 Service Bus Topic 与 消息 
中 间 件 的 Queue 和 Topic 模 式 类 似 ， 用 于 解除 应 用 程序 之 间 的 耦合 。 
Service Bus Queue 提 供 点 对 点 的 通信 ， 保 证 每 个 发 送 者 产生 的 消息 只 被 
一 个 接收 者 获取 ; Service Bus Topic 提 供 一 对 多 的 发 布 订 阅 通信 ， 每 个 
发 布 者 发 布 的 消息 能 被 所 有 的 订阅 者 获取 。Service Bus Relay 使 得 Azure 
平台 服务 器 端 可 以 访问 运行 在 企业 内 部 的 本 地 WCF 服 务 ， 这 些 WCF 服 
务 通常 没有 一 个 固定 的 IP 地 址 ， 而 且 被 企业 防火 墙 所 保护 。Azure 
Connect 在 Windows Azure 应 用 和 本 地 运行 的 机 器 之 间 建 立 一 个 基于 
IPsec 协议 的 连接 ， 使 得 两 者 更 容易 结合 起 来 使 用 。 例 如 ， 某 个 企业 需 
要 将 现 有 的 由 ASPNET 创 建 的 Windows Server 应 用 移动 到 Windows 
Azure Web Role 中 区 ， 如 果 这 个 应 用 使 用 的 数据 库 需 要 保留 在 本 地 机 器 
上 ， 那 么 Azure Connect 技 术 能 够 使 运行 在 Windows Azure 上 的 应 用 正常 
访问 本 地 数据 库 ， 甚 至 连 使 用 的 连接 字符 串 都 不 需要 改变 。 


e 工 具 文 持 


Windows Azure 平 台 不 但 支持 传统 的 微软 编程 语言 和 开发 平台 如 C# 
和 .NET 平 台 ， 还 支持 PHP、Python、Java、node.js 等 多 种 非 微软 编程 语 
言 和 架构 。Azure 平 台 提 供 各 种 语言 的 SDK 以 及 平台 管理 工具 。 


图 12-6 显 示 了 Windows Azure Platform 用 于 托管 用 户 Web 程 序 的 整体 架 
构 。 假 设 网 站 MyWebSite.com 托 管 在 Windows Azure 平 台 的 某 个 数据 中 
心 内 。Azure 平 台 开 发 者 将 Web 应 用 上 传 到 Azure 平 台 ， 由 平台 将 应 用 上 自 
动 部 署 到 Role 实例 上 。 在 Azure 内 部 ， 一 个 应 用 可 能 运行 在 一 个 或 者 多 
个 Role 实例 上 ， 将 运行 同一 个 应 用 的 Role 实例 成 为 一 个 Role 实例 组 ， 并 
通过 负载 均衡 器 将 访问 请 求 按照 一 定 的 策略 自动 分 发 到 其 中 的 Role 实 
例 。 开 发 者 的 Web 应 用 可 以 使 用 Azure 平 台 上 的 存储 类 服务 ， 包 括 Azure 
Blob、Table、Queue 以 及 SQL Azure。 为 了 提高 性 能 ， 应 用 也 可 以 使 用 
Azure Caching 绥 存 热点 数据 ， 就 像 使 用 Memcache 一 样 。 
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图 12-6 Windows Azure Platform 整体 架构 


网 站 上 往往 有 一 些 Blob 对 象 ， 比 如 图 片 、 视 频 ， 这 些 对 象 存储 在 Azure 
Blob 系 统 中 ， 并 通过 内 容 分 发 技术 缓存 到 多 个 Azure CDN 节 点 。Internet 
用 户 访问 MyWebSite.com 中 的 Blob 时 ， 访 问 请 求 将 通过 DNS 定位 到 CDN 
节点 上 ， 如 果 CDN 缓 存 了 Blob 的 副本 ， 直 接 将 副本 返回 给 用 户 ， 否 
则 ，CDN 广 点 将 请 求 Azure 源 站 中 的 Azure Blob 存 储 系统 获取 Blob 对 
象 ， 这 一 步 操作 称 为 回 源 。 


12.5.4 云 平台 架构 


从 托管 Web 应 用 程序 的 角度 看 ， 云 平台 主要 包括 云 存 储 以 及 应 用 运行 平 
台 ， 如 图 12-7 所 示 。 
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图 12-7 云 平 台 整 体 架构 


云 平台 的 核心 组 件 包括 : 云 存 储 组 件 和 应 用 运行 平台 组 件 。 下 面 简 单 
外 
(1) 云 存储 组 件 


云 存储 组 件 包括 两 层 ， 分 布 式 存储 层 以 及 存储 访问 层 。 分 布 式 存储 层 
管理 存储 服务 画集 群 ， 实 现 各 个 存储 设备 之 间 的 协同 工作 ， 保 证 数据 
可 靠 性 ， 对 外 屏蔽 数据 所 在 位 置 ， 数 据 迁 移 ， 数 据 复制 ， 机 莫 增 减 等 
变化 ， 使 得 整个 分 布 式 系 统 看 起 来 像 古 一 台 服 务 硕 。 分 布 式 存储 层 古 
云 存储 系统 的 核心 ， 也 是 整个 云 存 储 平 台 最 难 实现 的 部 分 。 CDNT 点 
将 云 存 储 系统 中 的 热点 数据 缓存 到 离 用 户 最 近 的 位 置 ， 从 而 减少 用 户 
的 访问 延 时 并 克 约 市 宽 。 


存储 访问 层 位 于 分 布 式 存储 层 的 上 一 层 ， 该 层 的 主要 作用 是 将 分 布 式 
存储 层 的 客户 端 接口 封装 为 WebService (基于 RESTful,SOAP 等 协议 ) 
服务 ， 另 外 ， 该 层 通过 调用 公共 服务 实现 用 户 认 证 ， 权 限 管理 以 及 计 
费 等 功能 。 存 储 访问 层 不 是 必须 的 ， 云 存储 平台 中 的 计算 实例 也 可 以 
直接 通过 客户 端 应 用 编程 接口 (API) 访问 分 布 式 存储 层 中 的 存储 系 


统 。 


(2) 应 用 运行 平台 组 件 


应 用 运行 平台 的 主体 为 计算 实例 ， 计 算 实 例 最 主要 的 功能 有 两 个 : 开 
发 者 的 应 用 程序 运行 环境 以 及 离线 任务 处 理 。 不 同 的 云 计 算 平 台 厂 商 


的 计算 实例 形式 往往 不 同 : AWS (Amazon Web Service) 平台 中 的 计算 
实例 为 Amazon 的 弹性 计算 (Elastic Computing,EC2) 虚拟 机 ， 它 们 既 
用 于 托管 开发 者 的 Web 程 序 ， 又 可 用 来 执行 Hadoop MapReduce 计 算 或 
者 图 像 以 及 视频 转换 等 离线 任务 ，GAE (Google App Engine) 平台 中 
的 计算 实例 分 为 前 端 实例 (Frontend Instance) 以 及 后 端 实例 (Backend 
Instance) ， 其 中 ， 前 端 实例 为 GAE 特 有 的 Python、Java 以 及 Go 语言 运 
容 絮 ， 用 于 托管 开发 者 使 用 Python、Java 或 者 Go 语言 开发 的 Web 程 
序 ， 后 端 实例 执行 运行 时 间 较 长 的 离线 任务 ， 微 软 的 Azure 平 台 
(Windows Azure Platform) 的 计算 实例 为 运行 着 一 个 64 位 的 Windows 


A 


Server 2008 的 虚拟 机 ， 分 为 Web Role、Worker Role 以 及 VM Role 三 种 角 
色 ， 其 中 ，Web Role 用 于 托管 Web 程 序 ，Worker Role 用 于 执行 视频 处 理 
等 离线 计算 任务 。 


多 个 计算 实例 构成 一 个 计算 实例 组 ， 当 实例 组 中 的 某 个 实例 出 现 故障 
时 ， 能 够 目 动 将 负载 迁移 到 其 他 的 实例 ， 并 且 文 持 动 态 增加 或 者 减少 
实例 从 而 使 得 实例 组 的 处 理 能 力 具 有 动态 可 伸缩 性 。 运 行 平台 的 最 前 
问 征 路 由 及 负载 均衡 组 件 ， 它 将 用 户 的 请 求 按 照 一 定 的 策略 发 送 到 合 
适 的 计算 实例 。 


云 存 储 平台 还 包含 一 些 公 共 服 务 ， 这 些 基 础 服务 由 云 存储 组 件 及 运行 
平台 组 件 所 共用 ， 如 下 所 示 : 


e 消 息 服 务 。 消 息 服 务 将 执行 流程 异步 化 ， 用 于 应 用 程序 解 厢 。 计 算 实 
例 一 般 分 为 处 理 Web 请 求 的 前 台 实 例 以 及 处 理 离 线 任务 的 后 台 实 例 ， 在 
很 多 情况 下 ， 前 台 实 例 处 理 Web 请 求 的 过 程 中 需要 启动 运行 在 后 人 台 的 任 
务 ， 这 种 需求 可 以 通过 消息 服务 实现 。 


e 缓 存 服务 。 缓 存 服务 用 于 存储 云 存 储 系统 中 的 读 多 写 少 的 热点 数据 ， 
从 而 加 速 碍 询 ， 减 少 对 后 端 存 储 系统 压力 。 大 多 数 云 存储 平台 提供 


Memcache 服 务 。 


e 用 户 管理 。 用 户 管理 主要 功能 是 用 户 喘 份 认 证 ， 确 保 用 户 的 身份 合 
法 ， 并 存储 用 户 相 关 的 个 人 信息 。 云 计算 平台 一 般 支 持 单 点 登录 ， 在 
多 个 应 用 系统 中 ， 用 户 只 需要 登录 一 次 就 可 以 访问 所 有 相互 信任 的 系 


统 。 


e 权 限 管 理 。 为 多 个 服务 提供 集中 的 权限 控制 ， 以 确保 应 用 和 数据 只 能 
被 有 授权 的 用 户 访 问 。 云 存储 系统 一 般 会 维护 一 系列 的 访问 策略 ， 
一 条 策略 表示 某 个 用 户 古 否 对 某 个 食 源 具有 某 种 操作 权限 。 


e 安 全 服务 。 安 全 服务 包括 Web 漏 洞 检测 ， 网 页 排 马 检测 ， 端 口 安全 
测 ， 入 侵 检测 ， 分 布 式 拒绝 服务 攻击 (Distributed Denial of 
Service,DDoS) 绥 解 等 。Web 漏 洞 检测 提供 对 应 用 的 SQL 注 入 漏洞 
XSS 跨 站 脚本 漏洞 、 文 件 包 含 等 高 危 安全 漏洞 进行 检测 ;网 页 挂 马 检测 
通过 静态 分 析 技 术 和 虚拟 机 沙 箱 行 为 检测 拉 术 相 结 合 ， 对 网 站 进行 挂 


马 检 测 ， 端 口 安 全 检测 通过 定期 扫描 服务 器 开放 的 高 危 端口 ， 降 低 系 
统 被 入 侵 的 风险 ; 主机 入 侵 检测 通过 主机 日 志 安 全 分 析 ， 实 时 侦 测 系 
统 密码 破解 ， 异 常 卫 登 录 等 攻击 行为 并 实时 报警 DDos 缓 解 技术 能 够 
抵御 SYN flood 以 及 其 他 拒绝 服务 攻击 。 


e 计 费 管 理 。 利 用 确 层 的 监控 系统 所 采集 的 数据 对 每 个 用 户 使 用 的 换 源 
和 服务 进行 统计 ， 计 算出 用 户 的 使 用 费用 ， 并 提供 完善 和 详细 的 报 
表 。 云 存储 系统 计 费 涉及 的 参数 一 般 包括 : CPU 时间， 网络 出 口 带 
视 ， 存 储量 以 及 服务 调用 次 数 〈 包 括 读 写 API 调 用 次 数 ) 。 


。 资 源 管理 。 管 理 云 存储 平台 中 的 所 有 服务 器 资源 ， 将 应 用 程序 或 者 虚 
拟 机 映射 自动 部 署 到 合适 的 计算 实例 ， 另 外 ， 自 动 调整 计算 实例 的 数 
量 来 帮助 运行 于 其 上 的 应 用 更 好 地 应 对 突 发 流量 。 当 计算 实例 发 生 故 
障 时 ， 资 源 管理 系统 还 需要 通知 前 端的 负载 均衡 层 ， 将 流量 切换 到 其 
他 计算 实例 。 


e 运 维 管理 。 云 存储 平台 的 运 维 需 要 做 到 目 动 化 ， 从 而 降低 运 维 成 本 ， 
一 般 来 说 ， 有 一 套 专 门 的 Web 运 维系 统 用 于 系统 上 下 线 ， 批 量 升级 系统 
程序 版 本 等 。 


e 监 控 系 统 。 监 控 系 统 有 两 个 层面 ， 其 一 十 资源 层面 ， 即 资源 的 运行 情 


况 ， 比 如 CPU 使 用 率 、 内 存 使 用 率 和 网 络 带宽 利用 率 、Load 值 等 ， 需 
要 注意 的 是 ， 云 计算 平台 除了 监控 物理 机 资源 ， 还 需要 监控 虚拟 机 资 


源 的 运行 情况 ;其 二 是 应 用 层面 ， 主 要 记录 应 用 每 次 请 求 的 啊 应 时 
间 、 读 写 请 求 数 等 。 


12.6 云 存储 技术 体系 


云 存 储 涉 及 的 知识 面 很 广 ， 既 涉及 云 存储 服务 端的 技术 ， 叉 涉及 终端 
设备 应 用 开发 相关 的 拉 术 。 本 书 天 注 云 存储 系统 服务 闹 技 术 ， 其 技术 
体系 如 图 12-8 所 示 。 


弹性 计算 平台 分 布 式 计算 云 引擎 
( MapReduce/MPI 等 ) ( AppEnegine 等 ) 
相关 技术 


自动 伸缩 


负载 均衡 
( LVS/HaProxy 等 i 
DDos/ 防火 问 层 


墙 等 


分 布 式 文件 系统 分 布 式 数 据 库 访问 加 速 
( GFS/TFS 等 ) 等 ( SQL Azure 等 ) (CDN/P2P) 


分 布 式 


数据 分 布 


NoSQL 存储 引擎 关系 数据 库 压缩 /解压 缩 
( hash/lsmtree 等 ) (SQL/ 事务/ 索引 等 ) ee 
单机 存储 
文件 系统 络 协议 CPU 与 内 存 
( ext3/ext4/btrfs 等 ) :piudp 等 ( 内存 管 理 /CPU 优化 ) 


定制 服务 喘 数据 中 心 
( 低 功 耗 / 低 成 本 ) (电源 /冷却 /PUE ) 
- 硬件 
存储 网 络 CPU 
( SSD/SAS/SATA/PCIL-E ) ( 万 兆 网 卡 /交换 机 等 ) ( Nehelam/Atom 等 ) 


图 12-8 云 存储 技术 体系 


云 存储 技术 体系 结构 分 为 四 层 : 硬件 层 、 单 机 存储 层 、 分 布 式 存储 
层 、 人 存储 访问 属 ， 下 面 分 别 介绍 。 


(1) 硬件 层 


硬件 层 包 括 存储 、 网 络 以 及 CPU 。 在 存储 方面 ， 除 了 传统 的 SAS 或 者 
SATA 人 磁盘 ，SSD 技 术 发 展 迅猛 ， 在 网 络 方面 ， 和 干粮 网 卡 已 经 普及 ,万 
兆 网 卡 离 我 们 越 来 越 近 ，Google 这 样 的 互联 网 巨头 已 经 开始 尝试 通过 
软件 自 定 义 交 换 机 ; 在 CPU 层面 ，Intel x86 架 构成 为 主流 ， 低 功 耗 逐步 
成 为 研究 热点 。 为 了 降低 成 本 和 能 耗 ， 云 存储 服务 提供 商 往往 会 定制 
服务 器 ， 甚 至 自 建 数 据 中 心 ， 需 要 考虑 电源 、 冷 却 、PUE (Power 
Usage Efficiency， 能 源 使 用 效率 ) 等 各 种 问题 。 


(2) 单机 存储 层 


云 存储 系统 的 底层 大 多 为 定制 的 Linux 操 作 系统 ， 服 务 提 供 商 需要 在 文 
件 系统 、 网 络 协议 以 及 CPU 和 内 存 使 用 上 对 Linux 系 统 进行 大 量 的 定制 
化 工作 。 单 机 存储 系统 大 致 分 为 两 类 : 传统 的 关系 数据 库 以 及 NoSQL 
存储 系统 。 关 系数 据 库 文 持 二 维 的 关系 模式 ， 并 提供 关系 数据 库 查 询 
语言 SQL， 文 持 事务 ， 索 引 等 操作 ， 使 用 比较 方便 。 NoSQL 存 储 系统 
则 百花 齐 放 ， 和 常见 的 NoSQL 系 统 包括 仅 文 持 根据 主键 进行 CRUD 

(Create,Read,Update,Delete) 操作 的 键 值 (Key-Value) 存储 系统 ， 


有 基于 传统 的 B 树 或 者 LSM 树 (Log-Structured Merge Tree) 的 存储 系 


统 。 


(3) 分 布 式 存储 层 


分 布 式 存储 层 是 云 存储 技术 的 核心 ， 也 是 最 难 实现 的 部 分 。 分 布 式 存 
储 系统 需要 能 够 将 数据 均匀 地 分 散 到 多 个 存储 广 点 上 ， 男 外 ， 为 了 保 
证 高 可 靠 性 和 高 可 用 性 ， 需 要 将 数据 复制 到 多 个 存储 市 点 并 保证 一 致 
性 。 当 存储 节点 出 现 故 障 时 ， 需 要 能 够 目 动 检 测 到 节点 故障 并 将 服务 
迁移 到 其 他 正常 工作 的 节操 。 分 布 式 存 储 层 依赖 一 些 基 础 服务 ， 常 见 
的 包括 分 布 式 锁 服务 (例如 Google Chubby 系 统 ) ， 以 及 集群 资源 管理 
服务 (例如 Google Borg 系 统 ) 。 另 外 ， 分 布 式 存储 层 包 含 分 布 式 缓存 
以 及 服务 总 线 ， 分 布 式 缓存 用 于 提高 访问 性 能 ， 服 务 总 线 用 于 云 平台 
应 用 逻辑 解 籼 。 云 存储 系统 既 存 储 无 结构 化 数据 ， 又 存储 半 结 构 化 以 
及 结构 化 数据 ， 分 别 对 应 分 布 式 文件 系统 、 分 布 式 表格 系统 以 及 分 布 
去 数据 库 ， 而 CDN 以 及 P2P 反 术 将 云 存储 系统 中 的 热点 数据 缓存 到 离 用 
户 较 近 的 边缘 万 点 或 者 量 近 的 其 他 用 户 的 客户 端 ， 从 而 起 到 访问 加 速 
的 作用 ， 并 且 市 省 云 存储 服务 提供 丙 的 网 络 市 宽 成 本 。 


(4) 存储 访问 层 


云 存储 系统 通过 存储 访问 层 被 个 人 用 户 的 终 闻 设备 直接 访问 ， 或 者 被 
云 存储 平台 中 托管 的 应 用 程序 访问 。 云 存储 访问 层 的 功能 包括 : Web 服 


务 、 负 载 均衡 、 安 全 服务 以 及 计 费 。 云 存储 系统 对 外 提供 统一 的 访问 
接口 ， 常 见 的 接口 是 REST 或 者 SOAP 这 样 的 Web 服 务 ， 需 要 通过 Apache 
或 者 Nginx 这 样 的 Web 服 务 器 进行 协议 转化 ，Web 服 务 器 前 端 经 常 使 用 
LVS (Linux Virtual Server) 、HaProxy 这 样 的 软件 或 者 专业 的 负载 均衡 
设备 (如 F5 负 载 均衡 器 ) 进行 负载 均衡 。 存 储 访问 层 需要 提供 安全 和 
计 费 服务 ， 安 全 服务 包括 身份 认证 、 访 问 授 权 、 综 合 防 护 、 安 全 审 

计 、DDos 攻 击 预 防 /防火 墙 等 。 


用 户 的 应 用 程序 可 能 会 托管 在 应 用 运行 平台 中 ， 应 用 场景 大 致 分 为 三 
类 : 


e 弹 性 计算 平台 。 典 型 的 弹性 计算 平台 为 Amazon EC2 以 及 Microsoft 的 
各 种 虚拟 机 实例 ， 底 层 涉及 的 技术 包括 虚拟 机 、 上 自动 伸缩 。 弹 性 计算 
平台 通过 虚拟 机 自身 的 机 制 来 保证 云 安全 ， 比 如 虚拟 机 安全 隔离 、 虚 
拟 机 防火 墙 。 基 于 虚拟 机 的 弹性 计算 平台 的 优势 在 于 兼容 性 ， 支 持 各 
种 编程 语言 和 平台 。 


e 云 引擎 。 典 型 的 云 引 警 为 Google App Engine， 底 层 设计 的 涉及 的 技术 
主要 是 应 用 容器 (比如 Java Tomcat、Jetty,Python Runtime) 以 及 应 用 容 
器 自动 伸缩 。 当 应 用 的 负载 过 高 时 ， 自 动 增加 应 用 的 运行 容器 数 ， 反 
之 ， 自 动 减少 应 用 的 运行 容器 数 。 云 引擎 通过 应 用 容器 的 沙 箱 机 制 来 
保证 安全 性 ，App Engine 的 沙 箱 环境 通过 限制 每 个 请 求 的 执行 时 间 来 防 
止 多 租户 之 间 干 扰 ， 男 外 ， 限 制 应 用 程序 对 网 络 、 文 件 进行 一 些 危险 


操作 。 云 引擎 与 云 存 储 服务 提供 商 结合 较 好 ， 但 是 对 于 每 种 不 同 的 编 
程 语言 都 需要 定制 相应 的 应 用 容器 ， 对 编程 语言 和 平台 文 持 比较 有 
限 。 


e 分 布 式 计 算 。 云 平台 往往 会 文 持 分 布 式 计 算 ， 通 过 后 台 的 计算 实例 执 
行 耗 时 较 长 的 计算 任务 。MapReduce 是 最 为 常见 的 分 布 式 计算 模型 ， 云 
平台 一 般 都 支持 开源 的 Hadoop MapReduce 计 算 框架 。 除 了 MapReduce 

之 外 ， 还 有 很 多 针对 特定 应 用 场景 的 计算 模型 ， 例 如 MPI (Message 


Passing Interface) 、BSP (Bulk Synchronous Parallel) 等 。 


12.7 云 存储 安全 


云 存储 的 一 些 特性 和 现 有 的 IT 模式 有 很 大 的 差异 ， 特 别 是 数据 和 应 用 
都 存储 和 运行 在 不 可 控 的 去 平台， 而 不 古 传统 的 企业 数据 中 心 内 。 安 
全 有 是 云 存 储 的 前 担 ， 如 采用 户 数据 的 私密 性 得 不 到 保证 ， 用 户 的 至 中 
数据 随时 可 能 丢失 ， 那 么 ， 云 存储 只 能 是 “空中 楼 阁 ”。 


首先 需要 承认 ， 云 存储 在 安全 方面 确实 面临 着 更 多 的 挑战 ， 也 不 可 能 
强行 要 求 用 户 将 所 有 的 数据 、 服 务 和 应 用 都 依托 于 互联 网 “去 "里 。 安 
全 问题 主要 体现 在 如 下 几 个 方面 。 


e 在 信任 边 宽 方面 有 了 巨大 的 变化 。 在 现 有 的 休 模 式 下 ， 所 有 的 开 资 源 
都 处 于 企业 IT 部 门 的 监控 之 下 ， 理 论 上 都 是 可 以 信任 的 。 但 在 云 存储 


环境 中 ， 数 据 存放 在 企业 无 法 监管 的 云 存储 平台 中 ， 这 些 数 据 对 企业 
而 言 客 时 很 难 被 充分 信任 。 


e 更 多 利益 相关 方 。 过 去 只 有 企业 的 开 部 分 参与 到 I 运营 中 ,但 是 在 云 
存储 环境 中 ， 云 存储 服务 提供 商 也 会 参与 其 中 。 


e 云 仓储 服务 其 露 在 互联 网 上 。 和 过 去 大 多 数 企 业 IT 服 务 只 运行 在 企业 
的 内 部 网 不 同 的 是 ， 公 有 云 存 储 服务 暴露 在 互联 网 上 。 虽 然 它 会 配备 
一 定 的 安全 和 认证 方面 的 措施 ， 但 是 需要 面 对 DDos 等 攻击 的 可 能 性 。 


e 多 租户 共 至 的 引入 。 云 存储 运行 平台 通过 虚拟 机 或 者 特定 的 应 用 运行 
容器 实现 多 租户 共享 ， 但 是 这 些 技 术 都 做 不 到 尽善尽美 ， 多 个 用 户 可 
能 互相 干扰 ， 这 也 为 云 存 储 的 安全 性 带 来 了 一 定 的 隐患 。 


e 数 据 存 储 。 传 统 模式 下 ， 个 人 用 户 将 数据 存储 在 本 地 磁盘 ，U 一 等 持 
入 化 介质 中 ， 而 云 存储 的 数据 存放 在 个 人 用 户 无 法 接触 到 的 数据 中 心 
中 ， 用 户 的 隐私 存在 一 定 的 风险 。 


然而 ， 云 存储 的 安全 问题 并 不 像 想 象 中 那么 严重 ， 云 存储 服务 提供 商 
有 专门 的 安全 团队 ， 制 定 了 完善 的 安全 方案 ， 对 任何 应 用 和 数据 的 访 
问 和 使 用 都 会 被 记录 在 案 ， 也 会 对 数据 进行 备份 和 加 密 。 云 存储 服务 
提供 商 一 般 为 大 型 互联 网 企业 ， 技 术 实力 强 ， 能 够 保证 数据 的 高 可 靠 
和 高 可 用 性 。 另 外 ， 安 全 有 是 云 存储 的 前 提 ， 当 云 存储 平台 出 现 非常 重 


大 的 安全 问题 ， 将 极 有 可 能 使 其 在 市 场 上 处 于 裔 溃 的 境地 ， 正 因 如 
此 ， 云 存储 服务 提供 商 一 定 会 非常 重视 安全 问题 。 


传统 的 IT 模 式 在 安全 方面 也 不 是 固 者 金 淘 。 例 如 ,个 人 用 户 往 往 没有 
数据 备份 意识 ， 很 多 用 户 的 关键 数据 只 存储 一 份 在 PC 机 或 者 手机 中 ， 
也 不 进行 加 密 ， 如 果 PC 机 或 者 手机 丢失 ， 个 人 数据 将 泄 凋 ， 个 人 隐私 
也 受到 威胁 。 企 业 数 据 中 心 也 不 一 定 是 安全 的 ， 很 多 企业 没有 专门 的 
安全 团队 ， 一 些 关 键 的 数据 ， 比 如 用 户 的 银行 卡号 信息 ， 可 能 被 内 部 
用 户 盗窃 以 什 取 私利 ，2011 年 某 专 业 面 向 程序 员 的 网 站 也 出 现 过 密码 
泄露 事件 。 可 以 这 么 说 ， 很 多 用 户 甚至 包括 企业 用 户 要 么 没有 安全 意 
识 ， 要 么 缺乏 安全 方面 的 知识 或 者 不 愿意 花 太 多 的 时 间 处 理 安全 问 

题 ， 与 其 让 用 户 数 据 目 生 自 炙 ， 不 如 交 给 专业 的 云 存储 安全 团队 管 

再 


云 存 储 安全 包括 两 个 层面 ， 非 技术 层面 以 及 技术 层面 。 非 技术 层面 主 
要 指 政策 、 法 律 以 及 监管 等 。 正 如 我 们 愿意 将 钱 存 到 银行 或 者 号 份 证 
言 轧 登记 到 公安 系统 一 样 ， 只 要 对 安全 问题 足够 重视 并 制定 相应 的 法 
律 法 规 和 监管 措施 ， 非 技术 层面 的 问题 是 会 逐步 解决 的 。 在 技术 层 
面 ， 云 存储 安全 包括 如 下 几 个 方面 。 


(1) 用 户 安全 


用 户 安全 主要 包括 两 个 方面 : 用 户 认证 以 及 访问 授权 。 用 户 认 证 用 于 
确保 用 户 的 合法 性 ， 访 问 授 权 用 于 确保 每 个 用 户 只 能 访问 他 们 得 到 授 
权 的 应 用 和 数据 。 另 外 ， 用 户 安 全 模块 还 会 对 用 户 的 操作 进行 日 志 记 
录 以 检测 每 个 用 户 的 行为 ， 以 发 现 用 户 任何 触及 安全 底线 的 行为 。 以 
Amazon 云 平台 AWS 为 例 ， 新 用 户 注册 时 ，Amazon 会 分 配给 每 个 用 户 
分 配 一 个 Access Key ID 和 一 个 Secure Access Key,Access Key ID 用 于 确 
定 请 求 的 发 送 者 ， 而 Secure Access Key 则 参与 数字 签名 过 程 ， 用 来 证 明 
发 送 服务 请 求 的 账户 的 合法 性 。 用 成 请 求 AWS 服 务 时 将 通过 HMAC 男 
数 对 Secure Access Key 生 成 数字 签名 ， 当 服务 端 接 收 到 用 户 请 求 后 通过 
用 户 的 Access Key ID 查 找 服务 句 兽 你 存 的 数字 人 签名， 然而 和 用 户 发 送 
的 数字 签名 做 比 对 ， 相 同 则 通过 验证 ， 反 之 拒绝 请 求 。 在 访问 授权 方 
面 ， 一 个 AWS 账 户 可 以 创建 多 个 用 户 ， 人 允许 同一 个 账户 下 的 不 同 用 户 
具有 不 同 的 访问 权限 。AWS 可 以 设置 每 个 账户 的 访问 控制 策略 

(Policy) ， 每 个 策略 都 是 一 个 四 元 组 < 用 户 ， 资 源 ， 操 作 ， 
Allow/Deny> ， 表 示 是 否 允 许 用 户 对 某 个 资源 执行 某 些 操作 。 例 如 ， 
<Bob,s3: bucket_xyz,ListBucket,Allow > ， 表 示人 允许 用 户 Bob 对 S3 中 名 
为 bucket_xyz 的 桶 执行 ListBucket 操 作 。 


网 络 安全 包括 安全 通信 、 网 络 防火 墙 、 入 侵 检测 、DDoS 攻 击 绥 解 等 。 
云 存储 通过 SSL (Secure Sockets Layer， 安 全 套 接 层 ) 、TLS 


Transport Layer Security， 传 输 层 安全 ) 、VPN (Virtual Private 
Network， 虚 拟 专 用 网 络 ) 和 IPSec (Internet Protocol Security， 因 特 网 
协议 安全 性 ) 等 安全 技术 来 确保 通信 的 私密 性 和 完整 性 。 另 外 ， 通 过 
网 络 防火 墙 过 滤 非 法 的 网 络 访问 ， 并 且 文 持 入 侵 和 DDoS 攻击 的 侦 测 。 
例如 ，Amazon 的 AWS 平 台 默 认 情 况 下 防火 墙 会 禁止 任何 流入 的 流量 ， 
用 户 需要 明确 开启 端口 才能 接收 流入 的 流量 ， 并 且 还 会 依据 其 协议 和 
源 地 址 来 对 部 分 流量 进行 屏蔽 ， 另 外 ，AWS 内 部 的 主机 防火 墙 系统 不 
允许 那些 以 非 本 地 IP 和 MAC 作 为 源 地 址 的 网 络 流量 ， 从 而 防止 应 用 程 
序 发 送 带 有 欺骗 性 的 网 络 流量 。 最 后 ， 需 要 检测 和 分 析 整 个 网 络 的 流 
量 来 确保 网 络 安全 运行 ， 发 现 流量 异常 时 及 时 报警 。 


(3) 多 租户 隔离 


云 存 储 的 应 用 运行 在 虚拟 机 或 者 特定 的 应 用 容 絮 中 ， 需 要 确保 多 个 应 
用 之 间 互 相 不 会 产生 干扰 ， 也 需要 防止 应 用 破坏 系统 。 以 Amazon EC2 
和 Google App Engine 为 例 ，EC2 确 层 采用 Xen 来 管理 多 个 实例 。 通 过 

Xen 的 半 虚 拟 化 技术 ， 能 在 多 个 虚拟 机 和 虚拟 机 管理 程序 之 间 对 CPU、 
网 络 、 内 存 和 硬盘 等 资源 进行 有 效 隔离 ， 虚 拟 机 之 间 互 相 不 影响 ， 而 
App Engine 通 过 安全 沙 箱 的 机 制 限制 了 应 用 程序 对 网 络 或 者 文件 进行 危 
险 操作 ， 也 限制 了 单个 请 求 的 时 间 和 最 多 允许 使 用 的 资源 从 而 防止 影 
啊 其 他 应 用 。 


(4) 存储 安全 


存储 安全 主要 包括 数据 备份 以 及 数据 安全 。 为 了 避免 由 于 硬件 或 者 软 
件 故 障 导 致 数据 丢失 ， 需 要 将 数据 复制 到 多 个 存储 节点 ， 另 外 ， 为 了 
防止 数据 中 心 整 体 出 现 故 障 的 情况 ， 云 存储 系统 设计 时 需要 将 复制 到 
多 个 数据 中 心 进行 容 灾 。 为 了 保证 数据 安全 ， 需 要 对 数据 加 密 ， 比 

如 ， 用 户 在 上 传 数据 之 前 先 使 用 密 钥 对 其 进行 加 密 ， 并 在 使 用 时 再 解 
密 。 这 样 能 够 确保 即使 数据 被 窃取 ， 也 不 会 被 非法 分 子 所 利用 。 另 

外 ， 还 可 以 通过 数据 校 验 来 确保 数据 的 完整 性 ， 当 数据 被 用 户 删 除 之 
， 云 存储 系统 需要 确保 很 快 删除 所 有 的 副本 ， 从 而 防止 非法 访问 。 


a 


总 而 言 之 ， 安 全 是 云 存 储 的 核心 问题 ， 但 不 必 对 此 过 分 担心 ， 前 途 是 
光明 的 ， 道 路 是 曲折 的 ， 随 着 专业 的 云 存 储 服务 提供 商 对 系统 不 断 的 
优化 ， 云 存储 比 现 有 的 IT 模式 反而 会 更 加 安全 。 


第 13 章 大 数据 


随 着 云 时 代 的 来 临 ， 大 数据 (Big Data) 也 吸引 了 越 来 越 多 的 关注 。 
2012 年 7 月 ， 阿 里 巴巴 数据 公司 成 立 并 设立 了 一 个 全 新 的 岗位 ， 首席 数 
据 官 (Chief Data Officer,CDO) ， 由 此 可 见 数据 在 未 来 的 价值 。 这 也 意 
味 着 与 “大 数据 存储 、 计 算 和 价值 提取 ”相关 的 技术 岗位 将 会 得 更 加 重 
要 。 


为 了 从 大 数据 中 提取 有 价值 的 信息 ， 首 先 需 要 将 大 数据 存储 并 沉 演 下 
来 ， 除 此 之 外 ， 还 需要 使 用 合适 的 大 数据 计算 框架 和 大 数据 处 理 算法 


来 理解 数据 的 价值 。 提 到 大 数据 ， 上 自 先 想到 的 束 是 MapReduce， 很 多 人 
甚至 将 大 数据 与 MapReduce 画 等 号 。 然 而 ，MapReduce 并 不 是 大 数据 的 
全 部 。 虽 然 MapReduce 解 决 了 海量 数据 离线 分 析 问 题 ， 但 是 ， 随 着 应 用 
对 数据 的 实时 性 要 求 越 来 越 高 ， 流 式 计算 系统 和 实时 分 析 系 统 得 到 越 
来 越 广泛 的 应 用 。 


本 章 首 先 介 绍 大 数据 的 概念 以 及 大 数据 计算 平台 ， 接 着 介绍 MapReduce 
离线 处 理 系统 ， 最 后 ， 介 绍 流 式 计算 系统 和 实时 分 析 系 统 。 


13.1 大 数据 的 概念 


大 数据 本 喘 产 生 的 育 景 是 什么 ?主要 有 几 上 点 : 一 、 数 据 的 爆发 式 的 增 
长 ， 有 一 个 趋势 叫 新 摩尔 定律 。 根 据 IDC 作 出 的 预测 ， 数 据 一 直 都 在 以 
每 年 50% 的 速度 增长 ， 也 就 是 说 每 两 年 增加 一 倍 ， 这 意味 着 人 类 在 最 近 
两 年 产生 的 数据 量 相当 于 之 前 产生 的 全 部 数据 量 。 二 、 大 数据 表现 为 
社会 化 趋势 。 社 交 网 络 兴起 ， 大 量 的 UGC 内 容 (User Generated 
Content， 即 用 户 生 成 内 容 ) 、 音 频 、 文 本 信息 、 视 频 、 图 片 等 非 结 构 
化 数据 出 现 了 。 三 、 物 联网 的 数据 量 更 大 ， 加 上 移动 互联 网 能 更 准 
确 、 更 快 地 收集 用 户 信息 ， 比 如 位 置 、 生 活 信息 等 数据 。 


以 往 大 数据 通 音 用 来 形容 一 个 公司 创造 的 大 量 非 结构 化 和 半 结 构 化 数 
据 ， 而 现在 提 及 “大 数据 "， 通 音 是 指 解决 问题 的 一 种 方法 ， 即 通过 收 
集 、 整 理 生 活 中 方方面面 的 数据 ， 并 对 其 进行 分 析 挖 气 ， 进 而 从 中 获 


得 有 价值 信息 ， 最 终 衍 化 出 一 种 新 的 商业 模式 。 人 简 而 言 之 ， 从 各 种 各 
样 类 型 的 数据 ， 包 括 非 结构 化 数据 、 半 结构 化 数据 以 及 结构 化 数据 
中 ， 快 速 获 了 到 有 价值 信息 的 能 力 ， 融 是 大 数据 技术 。 


虽然 大 数据 目前 在 国内 还 处 于 初级 阶段 ， 但 是 商业 价值 已 经 显现 出 

来 。 首 移 ， 手 中 握 有 数据 的 公司 站 在 金太 上， 基于 数据 交易 即 可 产生 
很 好 的 效益 ; 其次， 基于 数据 挖掘 会 有 很 多 商业 模式 诞生 。 比 如 侧重 
数据 分 析 ， 帮 企业 做 内 部 数据 挖掘 ， 或 者 侧重 优化 ， 帮 企业 更 精准 找 
到 用 户 ， 降 低 襄 销 成 本 。 未 来， 数据 可 能 成 为 最 大 的 交易 商品 。 但 数 
据 量 大 并 不 能 算是 大 数据 ， 大 数据 的 特征 是 数据 量 大 、 数 据 种 类 多 、 
非 标准 化 数据 的 价值 最 大 化 。 因 此 ， 大 数据 的 价值 是 通过 数据 共享 、 
交叉 复 用 后 获取 最 大 的 数据 价值 。 


大 数据 的 特点 可 以 用 4 个 V 来 摘 述 : 


eVolume， 传 统 的 数据 仓库 技术 处 理 GB 到 TB 级 别 的 数据 ， 大 数据 技术 
处 理 的 数据 量 往往 超过 PB。 数 据 容量 增长 的 速度 大 大 超过 了 硬件 技术 
的 发 展 速度 ， 以 至 于 引发 了 数据 存储 和 处 理 的 危机 。 


eVariety， 数 据 类 型 多 。 原 来 的 数据 都 可 以 用 二 维 表 结构 存储 在 数据 库 
中 ， 如 第 用 的 Excel 软 件 所 处 理 的 数据 ， 称 为 结构 化 数据 。 但 是 现在 更 
多 互联 网 多 媒体 应 用 的 出 现 ， 使 诸如 图 片 、 声 音 和 视频 等 非 结 构 化 数 
据 占 到 了 很 大 比重 。 


eVelocity， 数 据 增长 迅速 。 如 果 说 大 数据 的 特点 是 海量 和 非 结构 化 ， 
那 也 是 不 全 面 的 。 大 数据 市 来 的 挑战 还 在 于 它 的 实时 处 理 。 


eValue， 价 值 密度 低 。 以 连续 不 间断 的 监控 视频 为 例 ， 可 能 有 用 的 数据 
仅仅 有 一 两 秒 钟 。 


(1) 大 数据 管理 


一 提 到 大 数据 ， 大 部 分 人 首先 想到 的 就 是 Hadoop。Hadoop 是 Google 
GEFS 以 及 MapReduce 系 统 的 开源 实现 ， 用 户 可 以 在 不 了 解 分 布 式 底层 细 
节 的 情况 下 开发 分 布 式 程序 。 然 而 ， 大 数据 就 是 Hadoop 么 ” Hadoop 只 
是 大 数据 技术 的 一 部 分 ， 它 虽然 提供 了 离线 处 理 功 能 ， 但 无 法 做 到 动 
态 和 实时 的 分 析 。 为 了 解决 实时 性 问题 ， 流 计算 和 实时 分 析 系 统 应 运 
而 生 。 其 中 ， 流 计算 系统 能 够 处 理 实时 的 数据 流 ， 实 时 分 析 系统 主要 
采用 传统 的 MPP 技 术 (Massively Parallel Processing， 大 规模 并 行 处 
理 ) 从 海量 数据 中 实时 提取 有 价值 的 汇总 信息 。 


(2) 大 数据 理解 


大 数据 内 部 以 及 数据 和 数据 之 间 天 系 的 理解 涉及 数据 挖掘 、 机 楷 学 
习 、 多 妹 体 理解 等 多 个 前 沿 领域 的 拉 术 ， 例 如 相似 项 以 及 频 寺 项 控 
握 ， 分 类 与 聚 类 ， 协 同 过 滤 ， 语 音 识 别 与 图 像 处 理 等 。 这 一 块 目 前 做 
得 还 不 够 深入 ， 目 前 主要 从 体系 结构 、 分 布 式 处 理 、NOSQL 等 思路 出 


发 解决 性 能 问题 ， 如 何 设计 合理 的 算法 、 规 则 或 者 目 动 进 化 的 系统 理 
解 大 数据 、 对 大 数据 去 伪 存 真 将 会 是 今后 大 数据 领域 主要 的 挑战 。 


(3) 大 数据 应 用 


大 数据 技术 应 用 在 互联 网 营销 将 产生 直接 的 商业 价值 。 大 数据 技术 告 
诉 广告 商 什么 是 正确 的 时 间 ， 谁 是 正确 的 用 户 ， 什 么 是 应 该 发 表 的 正 
确 内 容 等 ， 这 正好 切合 了 广告 商 的 需求 。 男 外 ， 社 交 网 络 与 移动 互联 
网 的 兴起 将 大 数据 市 入 新 的 征程 ， 社 交 网 络 产 生 了 海量 用 户 以 及 实时 
和 完整 的 数据 ， 移 动 互联 网 市 来 了 地 理 位 置 以 及 更 多 个 性 化 信息 。 互 
联网 宫 销 将 在 行为 分 析 的 基础 上 辣 个 性 化 时 代 过 渡 ， 通 过 大 数据 技术 
深入 挖掘 每 个 用 户 ， 然 后 将 这 些 分 析 后 的 数据 推送 给 需要 的 品牌 商 


ar 


殉 


大 数据 技术 还 能 应 用 在 搜索 引擎、 推荐 系统 等 用 户 类 产品 以 改进 用 户 
体验 。 互 联网 技术 归根 结 底 就 是 云 计算 和 大 数据 技术 ， 云 计算 提供 海 
量 数 据 的 存储 和 计算 能 力 ， 并 最 大 程度 地 降低 分 布 式 处 理 的 成 本 ， 大 
数据 技术 进一步 从 海量 数据 中 抽取 数据 的 价值 ， 从 而 诞生 Google 搜 索 
引擎 、Amazon 商 品 推荐 系统 这 样 的 杀手 级 应 用 ， 形 成 一 条 大 数据 采 
集 、 处 理 、 反 馈 的 数据 处 理 闭 环 。 


13.2 MapReduce 


提 到 大 数据 ， 大 多 数 人 首先 想到 的 就 是 MapReduce。MapReduce 使 得 普 
通 程 序 员 可 以 在 不 了 解 分 布 式 底 层 细节 的 前 提 下 开发 分 布 式 程序 。 使 
用 者 只 需 编 写 两 个 称 为 Map 和 Reduce 的 函数 即 可 ，MapReduce 框 架 会 
动 处 理 数 据 划分 、 多 机 并 行 执行 、 任 务 之 间 的 协调 ， 并 且 能 够 处 理 某 
个 任务 执行 失败 或 者 机 器 出 现 故 障 的 情况 。Map Reduce 的 执行 流程 如 
图 13-1 所 示 。 
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图 13-1 MapReduce 执 行 流程 


MapReduce 框 架 包 含 三 种 角色 : 主 控 进 程 (Master) 用 于 执行 任务 划 
分 、 调 度 、 任 务 之 间 的 协调 等 ，Map 工 作 进程 (Map Worker， 简 称 Map 


进程 ) 以 及 Reduce 工 作 进 程 (Reduce Worker， 人 简称 Reduce 进 程 ) 分 别 
用 于 执行 Map 任 务 和 Reduce 任 务 。 


MapReduce 任 务 执行 流程 如 下 : 


1) 首先 从 用 户 提交 的 程序 fork 出 主 控 进程 ， 主 控 进程 启动 后 将 切 分 任 
务 并 根据 输入 文件 所 在 的 位 置 和 集群 信息 选择 机 器 fork 出 Map 或 者 
Reduce 进 程 ， 用 户 提交 的 程序 可 以 根据 不 同 的 命令 行 参数 执行 不 同 的 
何 冯 二 


2) 主 探 进程 将 切 分 好 的 任务 分 配给 Map 进 程 和 Reduce 进 程 执行 ， 任 务 
切 分 和 任务 分 配 可 以 并 行 执 行 。 


3) Map 进 程 执行 Map 任 务 : 读 取 相应 的 输入 文件 ， 根 据 指定 的 输入 格 
式 不 断 地 读 取 <key,value> 对 并 对 每 一 个 <key,value> 对 执行 用 户 自 定 
义 的 Map 男 数 。 


4) Map 进 程 执行 用 户 定义 的 Map 画 数 : 不 断 地 往 本 地 内 存 缓冲 区 输出 
中 间 <keyvalue> 对 结 采 ， 等 到 缓冲 区 超过 一 定 大 小 时 写 入 到 本 地 位 僵 
中 。Map 进 程 根据 分 割 (partition) 函数 将 中 间 结 果 组 织 成 R 份 ， 便 于 
后 续 Reduce 进 程 获取 。 


5) Map 任 务 执行 完成 时 ，Map 进 程 通过 心跳 向 主 控 进程 汇报 ， 主 控 进 
程 进一步 将 该 信息 通知 Reduce 进 程 。Reduce 进 程 向 Map 进 程 请 求 传 输 生 


成 的 中 间 结 有 果 数 据 。 这 个 过 程 称 为 Shuffle。 当 Reduce 进 程 获取 完 所 有 
的 Map 任 务 生成 的 中 间 结 果 时 ， 需 要 进行 排序 操作 。 


6) Reduce 进 程 执行 Reduce 任 务 : 对 中 间 结 果 的 每 一 个 相同 的 key 及 
value 集 合 ， 执 行 用 户 自 定义 的 Reduce 函 数 。Reduce 画 数 的 输出 结果 被 
写 入 到 最 终 的 输出 结果 ， 例 如 分 布 式 文件 系统 Google File System 或 者 
分 布 式 表格 系统 Bigtable 。 


MapReduce 框 染 实 现时 主要 做 了 两 点 优化 : 


e 本 地 化 : 尽量 将 任务 分 配给 离 输入 文件 最 近 的 Map 进 程 ， 如 同一 台 机 
妖 或 者 同一 个 机 染 。 通 过 本 地 化 策略 ， 能 够 大 大 减少 传输 的 数据 量 。 


e。 备 份 任务 ， 如 果菜 个 Map 或 者 Reduce 任 务 执行 的 时 间 较 长 ， 主 控 进 程 
会 生成 一 个 该 任务 的 备份 并 分 配给 另外 一 个 空 亲 的 Map 或 者 Reduce 进 
程 。 在 大 集群 环境 下 ， 即 使 所 有 机 了 絮 的 配置 相同 ， 机 器 的 负载 不 同 也 
会 导致 处 理 能 力 相差 很 大 ， 通 过 备份 任务 减少 “ 扼 后 腿 ” 的 任务 ， 从 而 
降低 整个 作业 的 总 体 执行 时 间 。 


13.3 MapReduce 扩 展 


MapReduce 框 染 有 效 地 解决 了 海量 数据 的 离线 批 处 理 问题 ， 在 各 大 互联 
网 公司 得 到 广泛 的 应 用 。 事 实 已 经 证 明了 MapReduce 巨 大 的 影响 力 ， 以 
至 于 引发 了 一 系列 的 扩展 和 改进 。 这 些 扩展 包括 : 


eGoogle Tenzing: 基于 MapReduce 模 型 构建 SQL 执行 引擎 ， 使 得 数据 分 
析 人 员 可 以 直接 通过 SQL 语言 处 理 大 数据 。 


eMicrosoft Dryad: 将 MapReduce 模 型 从 一 个 简单 的 两 步 工作 流 扩展 为 
任何 函数 集 的 组 合 ， 并 通过 一 个 有 回 无 环 图 来 表示 男 数 之 间 的 工作 


流 。 


eGoogle Pregel: 用 于 图 模型 迭代 计算 ， 这 种 场景 下 Pregel 的 性 能 远 远 


好 于 MapReduce 。 
13.3.1 Google Tenzing 


Google Tenzing 是 一 个 构建 在 MapReduce 之 上 的 SQL 执 行 引 警 ， 支 持 
SQL 查 询 且 能 够 扩展 到 成 二 上 万 台 机 和 絮 ， 极 大 地 方便 了 数据 分 析 人 
家 六 


1. 整 体 架 构 


Tenzing 系 统 有 四 个 主要 组 件 ， 分布 式 Worker 池 、 查 询 服务 器 、 客 户 闹 
接口 和 元 数据 服务 右 ， 如 图 13-2 所 示 。 


客户 端 接口 
( WebUI、 API、 CLI) 


查询 服务 器 


分 布 式 


Master 监听 者 Worker 池 


多 个 Master 多 个 Worker 


图 13-2 Tenzing 整 体 架构 


e 查 询 服务 器 (Query Server) : 作为 连接 客户 端 和 worker 池 的 中 间 桥 梁 
而 存在 。 查 询 服务 器 会 解析 客户 端 发 送 的 查询 请 求 ， 进 行 SQL 优化 ， 
然后 将 执行 计划 发 送 给 分 布 式 Worker 池 执行 。Tenzing 文 持 基 于 规则 

(rule-based optimizer) 以 及 基于 开销 (cost-based optimizer) 两 种 优化 
模式 。 


e 分 布 式 Worker 池 : 作为 执行 系统 ， 它 会 根据 查询 服务 器 生成 的 执行 计 
划 运 行 MapReduce 任 务 。 为 了 降低 查询 延 时 ，Tenzing 不 是 每 次 都 重新 
生成 新 进程 ， 而 是 让 进程 一 直 处 于 运行 状态 。Worker 池 包含 master 和 
worker 两 种 方 点 ， 其 中 ，master 对 应 MapReduce 框 架 中 的 master 进 程 ， 


worker 对 以 MapReduce 框 架 中 的 map 和 reduce 进 程 。 男 外 ， 还 有 一 个 称 
为 master 监 听 者 (master watcher) 的 守护 进程 ， 查 询 服 务 器 通过 master 


监听 者 获取 master 信 息 。 


e 元 数据 服务 器 (Metadata Server) : 存储 和 获取 表格 schema、 访问 控 
制 列 表 (Access Control List,ACL) 等 全 局 元 数据 。 元 数据 服务 器 使 用 
Bigtable 作 为 持久 化 的 后 台 存 储 。 


e 窜 户 端 接口 : Tenzing 提 供 三 类 客户 端 接口 ， 包 括 API、 命 令 行 客户 端 
(CLI) 以 及 Web UI。 


e 存 储 (Storage) : 分 布 式 worker 池 中 的 master 和 worker 进 程 执行 


MapReduce 任 务 时 需要 读 写 存储 服务 。 男 外 ， 查 询 服 务 器 会 从 存储 服务 
获取 执行 结果 。 


2. 查 询 流 程 


1) 用 户 通过 Web UI、CLI 或 者 API 向 查询 服务 器 提交 查询 。 


吐 


询 服务 器 将 查询 请 求解 析 为 一 个 中 间 语 法 树 。 


查询 服务 器 从 元 数据 服务 器 获取 相应 的 元 数据 ， 然 后 创建 一 个 更 加 
完整 的 中 间 格 式 。 


CD 
We 


4) 优化 器 扫描 该 中 间 格 式 进行 各 种 优化 ， 生 成 物理 查询 计划 。 


5) 优化 后 的 物理 查询 计划 由 一 个 或 多 个 MapReduce 作 业 组 成 。 对 于 每 
个 MapReduce 作 业 ， 碍 询 服 务 器 通过 master 监 听 者 找到 一 个 可 用 的 


master,master 将 该 作业 划分 为 多 个 任务 。 


6) 空闲 的 worker 从 master 拉 取 已 就 绪 的 任务 。Reduce 进 程 会 将 它们 的 
结果 写 入 到 一 个 中 间 存 储 区 域 中 。 


7) 查询 服务 器 监控 这 些 中 间 存 储 区 域 ， 收 集中 间 结 果 ， 并 流失 地 返回 


给 客户 端 。 
3.SQL 运 算 符 映射 到 MapReduce 


查询 服务 强人 负 员 将 用 户 的 SQL 操 作 转 化 为 MapReduce 作 业 ， 本 市 介绍 各 
个 SQL 物理 运算 符 对 应 的 MapReduce 实 现 。 


(1) 选择 和 投影 
选择 运算 符 oC (R) 的 一 种 MapReduce 实 现 如 下 。 


Map 芳 数 : 对 R 中 的 每 个 元 素 t， 检 测 它 是 否 满 足 条 件 C。 如 果 满 足 ， 则 
产生 一 个 “ 键 - 值 " 对 (tt) 。 也 就 是 说 ， 键 和 值 都 是 t。 


Reduce 芳 数 : Reduce 的 作用 类 似 于 恒等式 ， 它 仅仅 将 每 个 “ 键 - 值 ?对 传 
递 到 输出 部 分 。 


投影 运算 的 处 理 和 选择 运算 类 似 ， 不 同 的 是 ， 投 影 运算 可 能 会 产生 多 
个 相同 的 元 组 ， 因 此 Reduce 函 数 必须 要 剔除 元 余 元 组 。 可 以 采用 如 下 
方式 实现 投影 运算 符 nS (R) 。 


Map 函 数 : 对 R 中 的 每 个 元 组 :， 通 过 列 除 属性 不 在 S 中 的 字段 得 到 元 组 
t， 输 出 一 个 “ 键 - 值 ” 对 (t', t) 。 


Reduce 函 数 : 对 任意 Map 任 务 产 生 的 每 个 键 nb， 将 存在 一 个 或 多 个 “ 键 - 
值 ?对 (t，t) ，Reduce 函 数 将 (tt，[t，t，......， 倍 ) 转换 为 (t'， 
t') 5 以 保证 对 该 键 t 只 产生 一 个 (t', tb) 对 。 


Tenzing 执 行 时 会 做 一 些 优化 ， 例 如 选择 运算 符 下 移 到 存储 层 ， 如 采 存 
储 层 文 持 列 式 存 储 ，Tenzing 只 扫描 那些 查询 执行 必须 的 列 。 


(2) 分 组 和 聚合 


假定 对 关系 R (A,B，C) 按照 字段 A 分 组 ， 并 计算 每 个 分 组 中 所 有 元 组 
的 字段 B 之 和 。 可 以 采用 如 下 方式 实现 yA,SUM (B) (R) 。 


Map 函 数 : 对 于 每 个 元 组 ， 生 成 “ 键 - 值 "对 (a,b) 。 


Reduce 函 数 : 每 个 键 a 代 表 一 个 分 组 ， 对 与 键 ax 相关 的 字段 B 的 值 的 列表 
[b1, b2, ......, bn] 执 行 SUM 操 作 ， 输 出 结果 为 (a,SUM (b1， 
b2, ......, bn) ) 。 


Tenzing 文 持 基 于 哈 希 的 聚合 操作 ， 首 和 完 ， 放 松 奈 层 MapReduce 框 染 的 
限制 ，shuffle 时 保证 所 有 键 相 同 的 “ 键 - 值 ? 对 属于 同一 个 Reduce 任 务 ， 
但 是 并 不 要 求 按照 链 有 序 排列 。 其 次 ，Reduce 函 数 采用 基于 哈 布 的 方 
法 对 数据 分 组 并 计算 聚合 结果 。 


大 表 连 接 是 分 布 式 数据 库 的 难题 ，MapReduce 模 型 能 够 有 效 地 解决 这 一 
类 问题 。 和 党 见 的 连接 算法 包括 Sort Merge Join、Hash Join 以 及 Nested 


Loop Join。 


假设 需要 将 R (A,B) 和 S (B,C) 进行 自然 连接 运算 ， 即 寻找 字段 B 相 


同 的 元 组 。 可 以 通过 Sort Merge Join 实 现 如 下 : 


Map 范 数 ， 对 于 R 中 的 每 个 元 组 (a,b) ， 生 成 “ 键 - 值 ? 对 (b， 
(R,a) ) ， 对 S 中 的 每 个 元 组 (b,c) ， 生 成 “ 键 - 值 ? 对 (b， 
(S,c) ) 。 


Reduce 函 数 : 每 个 键 值 b 会 与 一 系列 对 相关 联 ， 这 些 对 要 么 来 目 
(R,a) ， 要 么 来 自 〈S,c) 。 键 b 对 应 的 输出 结果 是 (b，[ (al， 
站 ]) ， 也 就 是 说 ， 与 b 相 关联 的 元 组 列表 由 
来 目 R 和 S 中 的 具有 共同 b 值 的 元 组 组 合 而 成 。 


如 宁 两 张 表 格 都 很 大 ， 且 二 者 的 大 小 比较 接近 ，Join 字 段 也 没有 索引 ， 
Sort Merge Join 往 往 比 较 高 效 。 然 而 ， 如 果 一 张 表 格 相 比 另 外 一 张 表 格 
要 大 很 多 ，Hash Join 往 往 更 加 合适 。 


假设 R (A,B) 比 S (B,C) 大 很 多 ， 可 以 通过 Hash Join 实 现 自然 连接 。 
Tenzing 中 一 次 Hash Join 需 要 执行 三 个 MapReduce 任 务 。 


MR1: 将 R (A,B) 按照 字段 B 划 分 为 N 个 哈 希 分 区 ， 记 为 R1， 


R2, ......,， RN; 


MR2: 将 S (B,C) 按照 字段 B 划 分 为 N 个 哈 希 分 区 ， 记 为 S1， 


2 


MR3: 每 个 哈 希 分 区 <Ri，Si> 对 应 一 个 Map 任 务 ， 这 个 Map 任 务 会 将 
Si 加 载 到 内 存 中 。 对 于 Ri 中 的 每 个 元 组 (a,b) ， 生 成 tb，[ (a,b， 

站 5 ]) 是 Si 中 存 
储 的 元 组 。Reduce 的 作用 类 似 于 恒等式 ， 输 出 每 个 传 入 的 “ 键 - 值 ? 对 。 


Sort Merge Join 和 Hash Join 适 用 于 两 张 表格 都 不 能 够 存放 到 内 存 中 ， 且 
连接 列 没有 索引 的 场景 。 如 果 S (B,C) 在 B 列 有 索引 ， 可 以 通过 
Remote Lookup Join 实 现 上 自然 连接 ， 如 下 : 


Map 画 数 : 对 于 R 中 的 每 个 元 组 (a,b) ， 通 过 索引 查询 S$ (B,C) 中 所 有 
列 值 为 b 的 元 组 ， 生 成 (b, [ (ab，cl) ， (ab，c2) ，.…… ]) 。 


Reduce 芳 数 : Reduce 的 作用 类 似 于 恒等式 ， 输 出 每 个 传 入 的 “ 键 - 
值 ? 对 。 


如 果 S (B,C) 能 够 存放 到 内 存 中 ， 那 么 ，Map 进 程 在 执行 map 任 务 的 过 
程 中 会 将 S (B,C) 的 所 有 元 组 缓存 在 本 地 ， 进 一 步 优 化 执行 效率 。 另 
外 ， 同 一 个 Map 进 程 可 能 执行 多 个 map 任 务 ， 这 些 map 任 务 共享 一 份 S 


(B,C) 的 所 有 元 组 缓存 。 


13.3.2 Microsoft Dryad 


Microsoft Dryad 是 微软 研究 院 创建 的 研究 项 目 ， 主 要 用 来 提供 一 个 分 布 
式 并 行 计算 平台 。 在 Dryad 平 台 上 ， 每 个 Dryad 工 作 流 被 表示 为 一 个 有 
向 无 环 图 。 图 中 的 每 个 节点 表示 一 个 要 执行 的 程序 ， 市 点 之 间 的 边 表 
示 数 据 通道 中 数据 的 传输 方式 ， 其 可 能 是 文件 、 管 道 、 共 享 内 存 、 网 
络 RPC 等 。Dryard 工 作 流 如 图 13-3 所 示 。 


» * 
i 从 
节点 \ 通道 


Vertices channels 


图 13-3 Dryad 工 作 流 


每 个 节点 (vertices) 上 都 有 一 个 处 理 程序 在 运行 ， 并 且 通 过 数据 通道 
(channels) 的 方式 在 它们 之 间 传 输 数 据 。 类 似 于 Map 和 Reduce 范 数 ， 
工作 流 中 的 grep、sed、map、reduce、merge 等 范 数 可 以 被 很 多 节点 执 
行 ， 每 个 节点 会 被 分 配 一 部 分 输入 。Dryad 的 主 控 进程 (Job Manager) 
负责 将 整个 工作 分 割 成 多 个 任务 ， 并 分 发 给 多 个 节点 执行 。 每 个 节点 
执行 完 任务 后 通知 主 控 进程 ， 接 着 ， 主 控 进程 会 通知 后 续 节 点 获取 前 
一 个 节点 的 输出 结果 。 等 到 后 续 节点 的 输入 数据 全 部 准备 好 后 ， 才 可 
以 继续 执行 后 续 任 务 。 


Dryad 与 MapReduce 具 有 的 共同 特性 就 是 ， 只 有 任务 完成 之 后 才 会 将 输 
出 传递 给 接收 任务 。 如 果菜 个 任务 失败 ， 其 结 末 将 不 会 传递 
作 流 中 的 任何 后 续 任 务 。 因 此 ， 主 控 进 程 可 以 在 其 他 计算 节点 上 重 局 
该 任务 ， 同 时 不 用 担心 会 将 结果 重复 传递 给 以 前 传 过 的 任务 


相 比 多 个 MapReduce 作 业 串 联 模型 ，Dryad 模 型 的 优势 在 于 不 需要 将 每 
个 MapReduce 作 业 输 出 的 临时 结果 存放 在 分 布 式 文件 系统 中 。 如 果 先 存 
储 前 一 个 MapReduce 作 业 的 结果 ， 然 后 再 局 动 新 的 MapReduce 作 业 ， 那 
么 ， 这 种 开销 很 难 避 免 。 


13.3.3 Google Pregel 


Google Pregel 用 于 图 模型 闪 代 计算 ， 图 中 的 每 个 节 扣 对 应 一 个 任务 ， 
个 图 市 点 会 产生 输出 消 恩 给 图 中 与 它 天 联 的 后 续 记 点 ， 而 每 个 节 扣 会 


对 从 其 他 市 点 传 入 的 输入 消 恩 进行 处 理 。 


Pregel 中 将 计算 组 织 成 “ 超 步 ”(superstep) 。 在 每 个 超 步 中 ， 每 个 节点 
在 上 一 步 收 到 的 所 有 消 居 将 被 处 理 ， 并 且 将 处 理 完 后 的 结 采 传递 给 后 
续 广 上 反 。 


Pregel 采 用 了 BSP (Bulk Sychronous Parallel， 整 体 同步 并 行 计算 ) 模 
型 。 每 个 “ 超 步 ?分 为 三 个 步骤 : 每 个 节点 首先 执行 本 地 计算 ， 接 着 将 
本 地 计算 的 结果 发 送 给 图 中 相 邻 的 节点 ， 最 后 执行 一 次 栅栏 同步 ， 等 
得 所 有 市 点 的 前 两 步 操 作 结束 。Pregel 模 型 会 在 每 个 超 步 做 一 次 达 代 运 
算 ， 当 菜 次 迭代 生成 的 结果 没有 比 上 一 次 更 好 ， 说 明 结 果 已 经 收 全 ， 
可 以 终止 迭代 。 


tt rg 
和 点 


本 地 计算 


栅栏 同步 


图 13-4 Pregel BSP 计算 模型 


假设 有 一 个 市 边 权 重 的 图 ， 我 们 的 目标 是 对 图 中 的 每 个 记 点 计算 到 其 
他 任 一 市 点 的 最 短路 径 长 度 。 一 开始 ， 每 个 图 证 点 a 都 保存 了 诸如 
(b,w) 对 的 集合 ， 这 表示 a 到 b 的 边 权 重 为 w。 


(1) 超 步 


每 个 节点 会 将 (ab，w) 传递 给 图 中 与 它 关 联 的 后 续 节 点 。 当 下 点 c 收 
到 三 元 组 (ab，w) 时 ， 它 会 重新 计算 c 到 b 的 最 短 距离 ， 如 果 w+v<u 
(假设 当前 已 知 的 c 到 a 的 最 短 距离 为 v,c 到 b 的 最 短 距离 为 uy) ， 那 么 ， 
更 新 c 到 b 的 最 短 距离 为 vt+rv。 最 后 ， 消 息 (c,b，w+v) 会 传递 给 后 续 节 

点 。 


(2 终身 条 件 


当 所 有 节点 在 执行 某 个 超 步 时 都 没有 更 新 到 其 他 市 点 的 最 短 距离 时 ， 
说 明 已 经 计算 出 想 要 的 结 末 ， 整 个 迭代 过 程 可 以 结 


Pregel 通 过 检查 点 (checkpoint) 的 方式 进行 容错 处 理 。 它 在 每 执行 完 
一 个 超 步 之 后 会 记录 整个 计算 的 现场 ， 即 记录 检查 点 情况 。 检 查 点 中 
记录 了 这 一 轮 迭 代 中 每 个 任务 的 全 部 状态 信息 ， 一 旦 后 续 某 个 计算 节 
点 失效 ，Pregel 将 从 最 近 的 检查 点 重 局 整个 超 步 。 尽 管 上 述 的 容错 案 略 


会 重 做 很 多 并 未 失效 的 任务 ， 但 是 实现 简单 。 考 虑 到 服务 器 故障 的 概 
率 不 高 ， 这 种 方法 在 大 多 数 时 候 还 是 令 人 满意 的 。 


13.4 流 式 计算 


MapReduce 太 其 扩展 解决 了 离线 批 处 理 问 题 ， 但 是 无 法 保证 实时 性 。 对 
于 实时 性 要 求 高 的 场景 ， 可 以 采用 流 式 计算 或 者 实时 分 析 系 统 进行 处 


流 式 计算 (Stream Processing) 解决 在 线 聚 合 (Online Aggregation) 、 
在 线 过 滤 (Online Filter) 等 问题 ， 流 式 计算 同时 具有 存储 系统 和 计算 
系统 的 特点 ， 经 第 应 用 在 一 些 类 似 反 作 兹 、 交 易 异 常 监控 等 场景 。 尝 


式 计算 的 操作 算 子 和 时 间 相 关 ， 处 理 最 近 一 段 时 间 窗 口内 的 数据 。 


13.4.1 原理 


流 式 计算 强调 的 是 数据 流 的 实时 性 。MapReduce 系 统 主要 解决 的 是 对 静 
仿 数 据 的 批量 处 理 ， 当 MapReduce 作 业 局 动 时 ， 已 经 准备 好 了 输入 数 

据 ， 比 如 保存 在 分 布 式 文件 系统 上 。 而 流 式 计算 系统 在 启动 时 ， 输 入 

数据 一 般 并 没有 完全 到 位 ， 而 是 经 由 外 部 数据 流 源 源 不 断 地 流入 。 田 

外 ， 流 式 计算 并 不 像 批 处 理 系 统 那 桩 ， 重 视 数 据 处 理 的 总 吞吐 量 ， 而 

征 更 加 重视 对 数据 处 理 的 延迟 。 


MapReduce 及 其 扩展 采用 的 是 一 种 比较 静态 的 模型 ， 如 果 用 它 来 做 数据 
流 的 处 理 ， 首 先 需 要 将 数据 流 缓存 并 分 块 ， 然 后 放 入 集群 计算 。 如 采 
MapReduce 每 次 处 理 的 数据 量 较 小 ， 绥 存 数据 流 的 时 间 较 短 ， 但 是 ， 
MapReduce 框 染 造 成 的 额外 开销 将 会 占 很 大 比重 ， 如 末 MapReduce 每 次 
处 理 的 数据 量 较 大 ， 缓 存 数据 流 的 时 间 会 很 长 ， 无 法 满足 实时 性 的 要 
3 


流 式 计算 系统 染 构 如 图 13-5 所 示 。 


久子 丙 数 


结果 数据 输出 结 末 数 据 输 出 


目的 地 目的 地 目的 地 


图 13-5 流 式 计算 系统 


源 数 据 写 入 到 流 处 理 节 点 ， 流 处 理 万 点 内 部 运行 用 户 目 定义 的 钧 子 男 
数 对 输入 流 进 行 处 理 ， 处 理 完 后 根据 一 定 的 规则 转发 给 下 游 的 流 处 理 
节 扩 继续 处 理 。 男 外 ， 系 统 中 往往 还 有 管理 节点 ， 用 来 管理 流 处 理性 
点 的 状态 以 及 下 点 之 间 的 路 由 规则 。 


e 聚 合 男 数 : 计算 最 近 一 段 时 间 窗 口内 数据 的 聚合 值 ， 如 max、min、 


A 
avg、sum 、count 等 。 


e 过 小 函数 ， 过 滤 最 近 一 段 时 间 窗 口内 满足 某 些 特性 的 数据 ， 如 过 小 1 
秒 钟 内 重复 的 点 击 。 


如 采 考 虑 机 器 故障 ， 问 题 变 得 复杂 。 上 游 的 处 理 世 点 出 现 故 障 时 ， 下 
游 有 两 种 选择 : 第 一 种 选择 是 等 竺 上 游 恢 复 服务 ， 保 证 数据 一 致 性 ; 
第 二 种 选择 是 继续 处 理 ， 优 先 保 证 可 用 性 ， 等 到 上 游 恢复 后 再 修复 错 
误 的 计算 结 


流 处 理 节 点 可 以 通过 主 备 同步 (Master/Slave) 的 方式 容错 ， 即 将 数据 
强 同 步 到 备 机 ， 如 琳 主 机 出 现 故 障 ， 备 机 目 动 切换 为 主机 继续 提供 服 
务 。 然 而 ， 这 种 方式 的 代价 很 高 ， 且 流 式 处 理 系 统 往往 对 错误 有 一 定 
的 容忍 度 ， 实 际 应 用 时 经 常 选择 其 他 代价 更 低 的 容错 方式 。 


13.4.2 Yahoo S4 


Yahoo S4 最 初 是 Yahoo 为 了 提高 搜索 广告 有 效 点 击 率 而 开发 的 一 个 流 式 
处 理 系统 。S4 的 主要 设计 目标 是 提供 一 种 简单 的 编程 接口 来 处 理 数据 
流 ， 使 得 用 户 可 以 定制 流 式 计算 的 操作 算 子 。 在 容错 设计 上 ，S4 做 得 
比较 简单 ， 一 旦 $4 集群 中 的 某 个 市 点 故障 ， 会 目 动 切换 到 男 外 一 个 备 
用 下 点 ， 但 是 原 世 点 的 内 存 状 态 将 丢失 。 这 种 方式 虽然 可 能 丢失 一 部 
分 数据 ， 但 是 成 本 较 低 。 考 虑 到 服务 器 故障 的 概率 很 低 ， 能 够 很 好 地 
满足 流 式 计 算 业 务 需求 。 


S4 中 每 个 流 处 理 节 点 称 为 一 个 处 理 节 点 (Processing Node,PN) ， 其 主 
要 工作 是 监听 事件 ， 当 事件 到 达 时 调用 合适 的 处 理 元 (Processing 
Elements,PE) 处 理事 件 。 如 果 PE 有 输出 ， 则 还 需 调 用 通信 层 接 口 进 行 
事件 的 分 发 和 输出 ， 如 图 13-6 所 示 。 


处 理 节 点 


PE 容 天 


时 本 分 发 问 输出 需 
监听 疮 


故障 恢复 管理 
传输 协议 


Zookeeper 


图 13-6 S4 处 理 市 点 内 部 模块 


事件 监听 器 (Event Listener) 负责 监听 事件 并 转交 给 PE 容器 
(Processing Element Container,PEC) ， 由 PEC 交 给 合适 的 PE 处 理 业 务 
逻辑 。 配 置 文件 中 会 配置 PE 原型 (PE prototype) ， 包 括 其 功能 、 处 理 
的 事件 类 型 (event type) 、 关 心 的 key 以 及 关心 的 key 值 。 每 个 PE 只 负 
责 处 理 自 己 所 关心 的 事件 ， 也 就 是 说 ， 只 有 当 事 件 类 型 、key 类 型 和 
key 值 都 匹配 时 ， 才 会 交 由 该 PE 进行 计算 处 理 。PE 处 理 完 远 辑 后 根据 其 


定义 的 输出 方法 可 以 输出 事件 ， 事 件 交 由 分 发 器 (Dispatcher) 与 通信 
层 (Communication Layer) 进行 交互 并 由 输出 器 (Emitter) 输出 至 下 
一 个 逻辑 节点 。 输 出 器 通过 对 事件 的 类 型 、key 类 型 、key 值 计算 哈 希 
值 ， 以 路 由 到 配置 文件 中 指定 的 PN 。 


信 层 提供 集群 路 由 (Routing) 、 负 载 均衡 (Load Balancing) 、 故 障 
恢复 管理 (Failover Management) 、 逻 辑 节 点 到 物理 节点 的 映射 〈 存 放 
在 Zookeeper 上 ) 。 当 检测 到 节点 故障 时 ， 会 切换 到 备用 节点 ， 并 自动 
更 新 映射 关系 。 通 信 层 隐藏 的 映射 使 得 PN 发 送 消息 时 只 需要 关心 逻辑 
斑点 而 不 用 关心 物理 和 点 。 


通 
次 


13.5 实时 分 析 


海量 数据 离线 分 析 对 于 MapReduce 这 样 的 批 处 理 系统 挑战 并 不 大 ， 如 采 
要 求实 时 ， 又 分 为 两 种 情况 : 如 有 果 查 询 模式 单一 ， 那 么 ， 可 以 通过 
MapReduce 预 处 理 后 将 最 终结 果 导入 到 在 线 系统 提供 实时 查询 ， 如 有 果 得 
询 模式 复杂 ， 例 如 涉及 多 个 列 任意 组 合 查 询 ， 那 么 ， 只 能 通过 实时 分 
析 系 统 解决 。 实 时 分 析 系 统 融合 了 并 行 数据 库 和 云 计 算 这 两 类 技术 ， 
能 够 从 海量 数据 中 快速 分 析出 汇总 结 采 。 


13.5.1 MPP 架 构 


并 行 数据 库 往 往 采 用 MPP (Massively Parallel Processing， 大 规模 并 行 
处 理 ) 架构 。MPP 架 构 是 一 种 不 共享 的 结构 ， 每 个 节点 可 以 运行 自己 


的 操作 系统 、 数 据 库 等 。 每 个 市 点 内 的 CPU 不 能 访问 男 一 个 节 扩 的 内 
人 存 ， 丰 点 之 间 的 信息 交互 是 通过 节点 互联 网 络 实现 的 。 


如 图 13-9 所 示 ， 将 数据 分 布 到 多 个 和 点 ， 每 个 万 点 扫描 本 地 数据 ， 并 由 
Merge 操 作 符 执行 结果 汇总 。 


图 13-9 MPP Merge 操 作 符 
常见 的 数据 分 布 算法 有 两 种 : 
e 江 围 分 区 (Range partitioning) : 按照 范围 划分 数据 。 


e 哈 希 分 区 (Hashing) : 根据 哈 希 函数 计算 结果 将 每 个 元 组 分 配给 相 


应 的 上 护 。 


Merge 操 作 符 : 系统 中 存在 一 个 或 着 多 个 合并 和 点 ， 写 会 发 送 命令 给 各 
个 数据 分 乒 请 求 相 应 的 数据 ， 每 个 数据 分 片 所 在 的 世 点 扫描 本 地 数 

据 ， 排 序 后 回复 合并 节点 ， 由 合并 节点 通过 merge 操 作 符 执行 数据 汇 
总 。Merge 操 作 符 是 一 个 统称 ， 涉 及 的 操作 可 能 是 limit、order by、 
group by、join 等 。 这 个 过 程 相当 于 执行 一 个 Reduce 任 务 个 数 为 1 的 
MapReduce 作 业 ， 不 同 的 是 ， 这 里 不 需要 考虑 执行 过 程 中 服务 器 出 现 故 
障 的 情况 。 


如 条 Merge 世 点 处 理 的 数据 量 符 别 大 ， 可 以 通过 Split 操 作 符 将 数据 划分 
到 多 个 广 点 ， 每 个 节点 对 一 部 分 数据 执行 group by、join 等 操作 后 再 合 


并 最 终结 末 。 


如 图 13-10， 假 如 需要 执行 “select*from A,B where A.x=B.y”， 可 以 分 别 
根据 A.x 和 B.x 的 哈 硕 值 将 表 A 和 B 划 分 为 A0、A1 以 及 B0、B1。 由 两 个 
节点 分 别 对 A0、B0 以 及 A1、B1 执 行 join 操作 后 再 合并 join 结果 。 


图 13-10 MPP Split 操 作 符 


并 行 数据 库 的 SQL 查询 和 MapReduce 计 算 有 些 类 似 ， 可 以 认为 
MapReduce 模 型 是 一 种 更 高 层次 的 抽象 。 由 于 考虑 问题 的 角度 不 同 ， 并 
行 数据 库 处 理 的 SQL 得 询 执行 时 间 通 常 很 得， 出 现 异 党 时 整个 操作 重 
做 即 可 ， 不 需要 像 MapReduce 实 现 那 样 引 入 一 个 主 控 节操 管理 计算 市 
点 ， 监 控 计 算 世 点 故障 ， 局 动 备份 任务 等 。 


13.5.2 EMC Greenplum 


Greenplum 是 EMC 公 司 人 研发 的 一 各 采用 MPP 染 构 的 OLAP 广 品 ， 底 层 基 
于 开源 的 PostgreSQL 数 据 库 。 


1. 整 体 架构 


如 图 13-11，Greenplum 系 统 主要 包含 两 种 角色 : Master 服 务 器 (Master 
Server) 和 Segment 服 务 器 (Segment Server) 。 在 Greenplum 中 每 个 表 
都 是 分 布 在 所 有 节点 上 的 。Master 服 务 器 首先 对 表 的 某 个 或 多 个 列 进行 
哈 希 运算 ， 然 后 根据 哈 希 结果 将 表 的 数据 分 布 到 Segment 服 务 器 中 。 整 
个 过 程 中 Master 服 务 器 不 存放 任何 用 户 数据 ， 只 是 对 客户 端 进行 访问 控 
制 和 存储 表 分 布 逻 辑 的 元 数据 。 


Greenplum 文 持 两 种 访问 方式 : SQL 和 MapReduce。 用 户 将 SQL 操作 语 
名 发 送 给 Master 服 务 器 ， 由 Master 服 务 器 执行 词法 分 析 、 语 法 分 析 ， 生 
成 查询 计划 ， 并 将 查询 请 求 分 发 给 多 台 Segment 服 务 器 。 每 个 Segment 
服务 器 返回 部 分 结果 后 ，Master 服 务 器 会 进行 聚合 并 将 最 终结 采 返 回 给 
用 户 。 除 了 高 效 查 询 ，Greenplum 还 支持 通过 数据 的 并 行 装载 ， 将 外 部 
数据 并 行 逆 载 到 所 有 的 Segement 服 务 器 。 


SQL 
MapReduce 


Master 
服务 天 
查询 计划 和 分 发 


网 络 连接 


Segment 
服务 器 
查询 处 理 和 
数据 存储 


外 部 数据 源 
数据 装载 ， 


数据 流入 等 


图 13-11 Greenplum 整 体 架 构 
2. 并 行 查询 优化 器 


Greenplum 的 并 行 查 询 优化 右 负 责 将 用 户 的 SQL 或 者 MapReduce 请 求 转 
化 为 物理 执行 计划 。Greenplum 采 用 基于 代价 的 查询 优化 算法 (cost- 
based optimization) ， 从 各 种 可 能 的 查询 计划 中 选择 一 个 代价 最 小 的 。 


Greenplum 优 化 器 会 考虑 集群 全 局 统计 信息 ， 例 如 数据 分 布 ， 另 外 ， 除 
了 考虑 单机 执行 的 CPU、 内 存 资源 消耗 ， 还 需要 考虑 数据 的 网 络 传输 
开销 。 


Greenplum 除 了 生成 传统 关系 数据 库 的 物理 运算 符 ， 包 括 表 格 扫描 
(Scan) 、 过 滤 (Filter) 、 聚 集 (Aggregation) 、 排 序 (Sort) 、 联 表 
Uoin) ， 还 会 生成 一 些 并 行 运算 符 ， 用 来 描述 查询 执行 过 程 中 如 何在 

节点 之 间 传 输 数 据 。 


e 广 播 (Broadcast,N: N) : 每 个 计算 节点 将 目标 数据 发 送 给 所 有 其 他 


e 重 新 分 布 (Redistribute,N: N) : 类 似 MapReduce 中 的 shuffle 过 程 ， 
个 计算 节点 将 目标 数据 重新 蛤 希 后 分 散 到 所 有 其 他 节点 。 


e 汇 总 (Gather,N: 1) : 所 有 的 计算 节点 将 目标 数据 发 送 给 某 个 点 


(一 般 为 Master 服 务 器 ) 。 


图 13-12 中 有 四 张 表 格 : 订单 信息 表 (orders) ， 订 单项 表 

(ineitem) ， 顾 客 信息 表 (customer) 以 及 顾客 国籍 表 (nation) 。 其 
中 ，orders 表 记录 了 订单 的 基本 信息 ， 包 括 订 单 主 键 \o_orderkey) 、 
顾客 主键 (o_custkey) 和 订单 发 生日 期 (o_orderdate) ; lineitem 表 记 
录 了 订单 项 信息 ， 包 括 订 单 主键 (1_orderkey) 和 订单 金额 

(Lprice) ; customer 表 记录 了 顾客 的 基本 信息 ， 包 括 顾客 主键 


(c_custkey) 和 顾客 国籍 主键 (c_nationkey) ; nation 表 记录 了 顾客 的 
国籍 信息 ， 包 括 国 籍 主键 (n_nationkey) 和 国籍 名 称 (n_name) 
Orders 表 和 lineitem 表 通过 订单 主键 关 联 ，orders 表 和 customer 表 通过 顾 
客 主 键 天 联 ，customer 表 和 nation 通 过 国籍 主键 关联 。 左 边 的 SQL 语 句 
查询 订单 发 生日 期 在 1994 年 8 月 1 日 开始 三 个 月 内 的 所 有 订单 ， 按 照顾 
客 分 组 ， 计 算 每 个 分 组 的 所 有 订单 交易 额 ， 并 按照 交易 额 逆序 排列 。 
在 右边 的 物理 查询 计划 中 ， 首 先 分别 对 lineitem 和 orders，custom 和 
nation 执 行 联 表 操 作 ， 联 表 后 生成 的 结果 分 别 记 为 Join_tablel 和 
Join_table2。 接 着 ， 再 对 Join_table1 和 Join_table2 执 行 联 表 操作 。 其 中 ， 
custom 和 nation 联 表 时 会 将 nation 表 格 的 数据 广播 (Broadcast) 到 所 有 
的 计算 节点 〈 共 4 个 ) ; Join_table1 和 Join_table2 联 表 时 会 将 Join_tablel 
按照 Join 列 (0o_custkey) 哈 希 后 重新 分 布 (Redistribute) 到 所 有 的 计算 
点 。 最 后 ， 每 个 计算 节点 都 有 一 部 分 Join_table1 和 Join_table2 的 数 
据 ， 且 Join 列 〈o_custkey 以 及 c_custkey) 相同 的 数据 分 布 在 同一 个 计算 
节点 ， 每 个 计算 节点 分 别 执行 Hash Join、HashAggregate 以 及 Sort 操 作 。 
最 后 ， 将 每 个 计算 节点 上 的 部 分 结果 汇总 (Gather) 到 Master 服 务 器 ， 


整个 SQL 语 句 执行 完成 。 


Gather 4:1 


Select 
c_custkey, c_name,n_name 


sum(l_price) as revenue 
From HashAggregate 
customer, orders, lineitem, nation 
Where 
c_custkey = 0_custkey 
and |_orderkey = o_orderkey 
and o_orderdate >= date '1994-08-01' 
and o_orderdate < date '1994-08-01' 


Redistribute 4:4 
+ interval '3 month' 
and c_nationkey =n_nationkey 


顺序 扫描 顺序 扫描 Hash 
Group by lineitem customer 
c_custkey, c_name,n_name 


Order by 顺序 扫描 Broadcast 4:4 


orders 
revenue desc 。 
顺序 扫描 


nation 


图 13-12 Greenplum 查 询 优 化 示例 
13.5.3 HP Vertica 


Vertica 是 Michael Stonebraker 的 学 术 人 研究 项 目 C-Store 的 两 业 版 本 ， 并 最 
终 被 惠普 公司 收购 。Vertica 在 架构 上 与 OceanBase 有 相似 之 处 ， 这 里 介 
绍 其 中 一 些 有 趣 的 思想 。 


1. 混 合 存储 模型 


Vertica 的 数据 包含 两 个 部 分 : ROS (Read-Optimized Storage) 以 及 
WOS (Write-Optimized Storage) ，WOS 的 数据 在 内 存 中 且 不 排序 和 加 
索引 ，ROS 的 数据 在 磁 副 中 有 序 且 压缩 存储 。 后 台 的 “TUPLE 
MOVER” 会 不 断 地 将 数据 从 WOS 读 出 并 往 ROS 更 新 (同时 完成 排序 和 


索引 ) 。YVertica 的 这 种 设计 和 OceanBase 很 相似 ，ROS 对 应 OceanBase 中 
的 ChunkServerWOS 对 应 OceanBase 中 的 UpdateServer。 由 于 后 人 台 采 
用 “BULK” 的 方式 批量 更 新 ， 性 能 非常 好 。 


2. 多 映射 (Projections) 存储 


Vertica 没 有 采用 传统 关系 数据 库 的 B 树 索引 ， 而 是 匈 余 存 储 一 张 表格 的 
多 个 视图 ， 定 义 为 映射 。 


每 个 映射 包含 表格 的 部 分 列 ， 可 以 分 别 对 不 同 的 映射 定义 不 同 的 排序 
主键 。 如 图 13-13 所 示 ， 系 统 中 有 一 张 表格 逻辑 上 包含 5 列 < A,B， 
C,D，E> ， 物 理 存 储 成 三 个 映射 ， 分 别 为 : Projection1 (A,B,，C, 主 
键 为 <A,B>) ，Projection2 (A,B，C， 主 键 为 <B,A >) 和 Projection3 
(B,D，E， 主 键 为 <B>) 


a) “select A,B, C from table where A=1”=> 查询 Projection1 
b) “select A,B, C from table where B=1”=> 查询 Projection2 


c) “select B,D from table where B=1”=> 查询 Projection3 


Vertica 通 常 维护 多 个 不 同 排序 的 有 重 受 的 映射 ， 尽 量 使 得 每 个 查询 的 数 
据 只 来 目 一 个 映射 ， 以 提高 查询 性 能 。 为 了 文 持 任意 列 查 询 ， 需 要 保 
证 每 个 列 至 少 在 一 个 映射 中 出 现 。 


Projection 1 Projection 2 Projection 3 


键 为 <A，B> FE 键 为 <B，A> 主键 为 <B> 


图 13-13 vertica projections 示 例 
3. 列 式 存储 


Vertica 中 的 每 一 列 数 据 独 立 存 储 在 磁 副 中 的 连续 块 上 。 查 询 数 据 时 ， 
Vertica 只 需要 读 取 那些 需要 的 列 ， 而 不 是 被 选择 的 行 的 所 有 的 列 数据 。 


4. 压 缩 技术 


Vertica 根 据 数据 类 型 、 基 数 (可 能 的 取 值 个 数 ) 、 排 序 自 动 对 数据 进行 
压缩 ， 从 而 最 小 化 每 列 占 用 的 空间 。 营 用 的 压缩 算法 包括 : 


eRun Length Encoding: 列 类 型 为 整数 ， 基 数 较 小 且 有 序 ; 


e 位 图 索引 : 列 类 型 为 整数 ， 基 数 较 小 ; 


e 按 块 字典 压缩 :， 列 类 型 为 字符 串 且 基数 较 小 ; 


eLZ 通 用 压缩 算法 : 其 他 列 值 特征 不 明显 的 场景 。 


基于 列 的 压缩 由 于 同样 的 数据 类 型 和 相同 的 取 值 范 围 ， 通 常会 大 幅度 
提高 压缩 效果 。 另 外 ，vertica 还 文 持 直 接 在 压缩 后 的 数据 上 做 运算 。 


13.5.4 Google Dremel 


Google Dremel 是 Google 的 实时 分 析 系 统 ， 可 以 扩展 到 上 和 于 人 台 机 器 规 
模 ， 处 理 PB 级 别 的 数据 。Dremel 还 是 Google Bigquery 服 务 的 底层 存储 
和 查询 引擎 。 相 比 传统 的 并 行 数据 库 ，Dremel 的 优势 在 于 可 扩展 性 ， 
磁盘 的 顺序 读 取 速 度 在 100MB/s 上 下 ， 而 Dremel 能 够 在 1 秒 内 处 理 1TB 
的 数据 ， 即 使 压缩 率 为 10:1， 也 至 少 需要 1000 个 磁盘 并 发 读 。 


Dremel 系 统 融 合 了 并 行 数据 库 和 Web 搜 索 技 术 。 首 先 ， 它 借鉴 了 Web 搜 
索 中 的 “查询 树 ” 的 概念 ， 将 一 个 巨大 复杂 的 查询 ， 分 割 成 大 量 较 小 的 
查询 ， 使 其 能 并 发 地 在 大 量 世 点 上 执行 。 其 次 ， 和 并 行 数 据 库 类 似 ， 
Dremel 提 供 了 一 个 SQL-like 的 接口 ， 且 文 持 列 式 存 储 。 


如 岁 13-14 所 示 ，Dremel 采 用 多 层 并 属 级 癌 上 汇报 的 方式 实现 数据 运算 
后 的 汇聚 ， 即 : 


安 和 卢 站 “一 站 
客户 请 查询 执行 树 


根 市 点 


中 间 节 点 


二 
| 


存储 层 ( 如 GFS ) 


图 13-14 Dremel 系 统 架构 


。 叶 子 节点 执行 查询 后 得 到 部 分 结果 向 上 层 中 间 节点 汇报 


e 中 间 节 点 再 癌 上 层 中 间 节 点 汇报 《此 层 可 以 重复 几 次 或 零 次 ) : 


e 中 间 廊 点 同根 节点 汇报 最 终结 


Dremel 要 求 数据 在 同上 层 并 报 中 ， 是 可 以 案 集 的 ， 也 就 是 说 ， 在 逐 级 
上 报 的 过 程 中 数据 量 不 断 变 小 ， 最 终 的 结果 不 会 很 大 ， 确 保 在 一 台 机 
虱 能 够 承受 的 范围 。 


2.Dremel 与 MapReduce 的 比较 


MapReduce 的 输出 结果 直接 由 reduce 任 务 写 入 到 分 布 式 文件 系统 ， 
此 ， 只 要 reduce 任 务 个 数 足 够 多 ， 输 出 结果 可 以 很 大 ， 而 Dremel 中 的 最 
终 数据 汇聚 到 一 个 根 季 点 ， 因 此 一 般 要 求 最 终 的 结果 集 比 较 小 ， 例 如 
GB 级 别 以 下 。 


Dremel 的 优势 在 于 实时 性 ， 只 要 服务 右 个 数 足够 多 ， 大 部 分 情况 下 能 
够 在 3 秒 以 内 处 理 完成 TB 级 别 数据 。 


本 书 由 “ePUBw.COM” 整 理 ，ePUBw.COM 提供 
最 新 最 全 的 优质 电子 书 下 载 ! ! ! 
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